RAG - Retrieval Augmented Generation

Wprowadzenie

RAG (Retrieval Augmented Generation) to jedna z najważniejszych technik w dziedzinie aplikacji LLM. Łączy mechanizm wyszukiwania informacji (retrieval) z generowaniem tekstu przez duży model językowy. Dzięki temu model nie polega wyłącznie na wiedzy zapisanej w swoich parametrach, lecz dynamicznie pobiera aktualne dane z zewnętrznej bazy.

Jak działa RAG?

Proces składa się z kilku etapów:

  1. Indeksacja – dokumenty są dzielone na fragmenty (chunks), embedowane i zapisywane w wektorowej bazie danych (Vector DB).
  2. Retrieval – przy zapytaniu użytkownika wyszukiwane są najbardziej podobne fragmenty (np. za pomocą cosine similarity).
  3. Augmentation – znalezione fragmenty są dodawane do promptu modelu.
  4. Generation – LLM generuje odpowiedź na podstawie kontekstu + zapytania.

Główne komponenty

  • Retriever – moduł wyszukujący (dense retrieval, sparse, hybrid)
  • Vector Database – Pinecone, Weaviate, Chroma, Qdrant, PGVector
  • Embeddings – modele jak text-embedding-3-large, BGE, E5, voyage-ai
  • Generator – LLM (GPT-4o, Claude 3.5, Llama 3.1, Grok itp.)

Typy RAG

  • Naive RAG – podstawowa wersja (retrieve → augment → generate)
  • Advanced RAG – z pre-retrieval (query rewriting, routing) i post-retrieval (reranking, fusion)
  • Modular RAG – elastyczna architektura z wieloma modułami i agentami
  • Agentic RAG – model samodzielnie decyduje, kiedy i co wyszukać

Zalety RAG

  • Znaczna redukcja halucynacji
  • Dostęp do aktualnych informacji (po dacie cutoff modelu)
  • Możliwość pracy na danych prywatnych firmy
  • Lepsza cytowalność i wiarygodność odpowiedzi
  • Łatwiejsze dostosowanie do domeny (RAG over company knowledge base)

Wyzwania

  • Problem „lost in the middle” przy długim kontekście
  • Jakość chunków i embeddings ma ogromny wpływ na wyniki
  • Opóźnienie odpowiedzi (latency)
  • Koszt tokenów (wysyłanie dużych kontekstów)
  • Ocena jakości RAG (RAGAS, ARES, TruLens)

Aktualny status (2026)

RAG stał się standardem w prawie wszystkich produkcyjnych aplikacjach LLM. Firmy budują własne „knowledge engines” oparte na RAG. Najnowsze trendy to: Graph RAG, Hybrid Search, Corrective RAG (CRAG), Self-RAG, Adaptive RAG oraz integracja z agentami. Dzięki modelom z kontekstem 128k–1M tokenów oraz ulepszonym embeddingom, RAG jest coraz bardziej skuteczny i dominuje w enterprise AI.