RAG - Retrieval Augmented Generation

Wprowadzenie

RAG (Retrieval Augmented Generation) to jedna z najważniejszych technik w dziedzinie aplikacji LLM. Łączy mechanizm wyszukiwania informacji (retrieval) z generowaniem tekstu przez duży model językowy. Dzięki temu model nie polega wyłącznie na wiedzy zapisanej w swoich parametrach, lecz dynamicznie pobiera aktualne dane z zewnętrznej bazy.

Jak działa RAG?

Proces składa się z kilku etapów:

Indeksacja – dokumenty są dzielone na fragmenty (chunks), embedowane i zapisywane w wektorowej bazie danych (Vector DB).
Retrieval – przy zapytaniu użytkownika wyszukiwane są najbardziej podobne fragmenty (np. za pomocą cosine similarity).
Augmentation – znalezione fragmenty są dodawane do promptu modelu.
Generation – LLM generuje odpowiedź na podstawie kontekstu + zapytania.

Główne komponenty

Retriever – moduł wyszukujący (dense retrieval, sparse, hybrid)
Vector Database – Pinecone, Weaviate, Chroma, Qdrant, PGVector
Embeddings – modele jak text-embedding-3-large, BGE, E5, voyage-ai
Generator – LLM (GPT-4o, Claude 3.5, Llama 3.1, Grok itp.)

Typy RAG

Naive RAG – podstawowa wersja (retrieve → augment → generate)
Advanced RAG – z pre-retrieval (query rewriting, routing) i post-retrieval (reranking, fusion)
Modular RAG – elastyczna architektura z wieloma modułami i agentami
Agentic RAG – model samodzielnie decyduje, kiedy i co wyszukać

Zalety RAG

Znaczna redukcja halucynacji
Dostęp do aktualnych informacji (po dacie cutoff modelu)
Możliwość pracy na danych prywatnych firmy
Lepsza cytowalność i wiarygodność odpowiedzi
Łatwiejsze dostosowanie do domeny (RAG over company knowledge base)

Wyzwania

Problem „lost in the middle” przy długim kontekście
Jakość chunków i embeddings ma ogromny wpływ na wyniki
Opóźnienie odpowiedzi (latency)
Koszt tokenów (wysyłanie dużych kontekstów)
Ocena jakości RAG (RAGAS, ARES, TruLens)

Aktualny status (2026)

RAG stał się standardem w prawie wszystkich produkcyjnych aplikacjach LLM. Firmy budują własne „knowledge engines” oparte na RAG. Najnowsze trendy to: Graph RAG, Hybrid Search, Corrective RAG (CRAG), Self-RAG, Adaptive RAG oraz integracja z agentami. Dzięki modelom z kontekstem 128k–1M tokenów oraz ulepszonym embeddingom, RAG jest coraz bardziej skuteczny i dominuje w enterprise AI.