Self-Attention

Wprowadzenie

Self-Attention (uwaga własna) to mechanizm, który stanowi absolutne serce architektury Transformer. Dzięki niemu model może jednocześnie analizować wszystkie tokeny w sekwencji i dynamicznie określać, które z nich są dla siebie istotne.

Jak działa Self-Attention?

Dla każdej pozycji w sekwencji wejściowej model tworzy trzy wektory:

  • Query (Q) – „czego szukam”
  • Key (K) – „co oferuję”
  • Value (V) – „co mam do przekazania”

Następnie oblicza się macierz podobieństwa (attention scores) między Query a Key wszystkich tokenów, skaluje ją i normalizuje za pomocą softmax. Wynikowe wagi służą do ważonej sumy wektorów Value.

Scaled Dot-Product Attention

Attention(Q, K, V) = softmax( (Q·Kᵀ) / √dₖ ) · V

Skalowanie przez pierwiastek z wymiaru klucza (√dₖ) zapobiega zbyt dużym wartościom iloczynów skalarnych i niestabilności treningu.

Multi-Head Attention

Zamiast jednego mechanizmu uwagi, model używa wielu „głów” (heads) równolegle. Każda głowa uczy się innych typów zależności (składniowych, semantycznych, referencyjnych itp.). Wyniki wszystkich głów są konkatenowane i przepuszczane przez liniową warstwę.

Zalety Self-Attention

  • Pełna paralelizacja – w przeciwieństwie do RNN/LSTM
  • Globalny kontekst – każdy token widzi całą sekwencję od razu
  • Interpretowalność – macierze uwagi można wizualizować
  • Skalowalność – bardzo dobrze działa na długich kontekstach (szczególnie z ulepszeniami takimi jak FlashAttention, RoPE, ALiBi)

Porównanie z wcześniejszymi mechanizmami

  • RNN / LSTM → sekwencyjne przetwarzanie, problem vanishing gradient, słaba pamięć długoterminowa
  • CNN → lokalny kontekst (receptywne pole)
  • Self-Attention → globalny kontekst + dynamiczne ważenie + równoległość

Zastosowania

  • Wszystkie modele Transformer (BERT, GPT, T5, Llama, Mistral, Claude, Gemini itp.)
  • Modele wizyjne (Vision Transformer)
  • Modele multimodalne (CLIP, LLaVA, Chameleon)
  • Systemy audio i wideo (Whisper, Video Transformer)

Aktualny status (2026)

Self-Attention pozostaje podstawowym budulcem prawie wszystkich najpotężniejszych modeli AI. Mimo pojawienia się alternatyw (Mamba, RWKV, RetNet, Test-Time Training), architektury oparte na Transformerach z ulepszonym Self-Attention nadal dominują w dziedzinie LLM. Najnowsze badania koncentrują się na efektywności (Sparse Attention, Linear Attention, FlashAttention-3) oraz obsłudze ekstremalnie długich kontekstów (nawet milionów tokenów).