Context Window

Wprowadzenie

Context Window (okno kontekstu) to maksymalna liczba tokenów, jaką model językowy może przetwarzać jednocześnie podczas jednej operacji (zarówno podczas treningu, jak i inferencji). Określa, jak dużo informacji model „widzi” naraz i ma bezpośredni wpływ na jego możliwości rozumowania, zapamiętywania i wykonywania złożonych zadań.

Znaczenie Context Window

Im dłuższe okno kontekstu, tym model może:

  • Analizować dłuższe dokumenty, książki lub całe codebase’y
  • Prowadzić bardziej spójne, długie rozmowy
  • Wykonywać zadania wymagające pamięci długoterminowej (np. wieloetapowe rozumowanie)
  • Lepiej radzić sobie z zadaniami RAG i agentycznymi

Ewolucja długości kontekstu

  • GPT-2 (2019) – 1024 tokeny
  • GPT-3 (2020) – 2048 tokenów
  • GPT-4 (2023) – 32k (wersja 128k w niektórych wariantach)
  • Gemini 1.5 / Claude 3 (2024) – 200k–1M tokenów
  • 2025–2026 – modele z kontekstem 1M–10M+ tokenów (Llama 4 Scout, Gemini 2.5, Grok 3)

Techniki rozszerzania kontekstu

  • RoPE (Rotary Positional Embeddings) + YaRN / NTK-aware scaling
  • ALiBi – Attention with Linear Biases
  • Sliding Window Attention
  • State Space Models (Mamba) i hybrydy
  • Context Compression i Memory Mechanisms

Zalety długiego Context Window

  • Lepsza spójność w długich rozmowach
  • Możliwość analizy całych dokumentów, repozytoriów kodu, książek
  • Zaawansowane zadania agentyczne i wieloetapowe
  • Lepsze wyniki w RAG przy dużych bazach wiedzy

Ograniczenia

  • Wzrost kosztu obliczeniowego (kwadratowo z długością kontekstu)
  • Zjawisko „lost in the middle” – model gorzej wykorzystuje informacje ze środka kontekstu
  • Trudności z treningiem i inferencją na bardzo długich sekwencjach

Aktualny status (2026)

Context Window stał się jednym z najważniejszych parametrów konkurencji między modelami. Najnowsze modele oferują kontekst rzędu milionów tokenów, co umożliwia całkowicie nowe zastosowania – od analizy całych codebase’ów po przetwarzanie wielogodzinnych nagrań wideo czy długich książek. Techniki takie jak RoPE + YaRN oraz architektury hybrydowe (Transformer + Mamba) pozwalają skutecznie skalować kontekst przy zachowaniu rozsądnych kosztów.

Długi kontekst to jeden z kluczowych kierunków rozwoju LLM w kierunku prawdziwej inteligencji ogólnej.