Wprowadzenie
Self-Attention (uwaga własna) to mechanizm, który stanowi absolutne serce architektury Transformer. Dzięki niemu model może jednocześnie analizować wszystkie tokeny w sekwencji i dynamicznie określać, które z nich są dla siebie istotne.
Jak działa Self-Attention?
Dla każdej pozycji w sekwencji wejściowej model tworzy trzy wektory:
- Query (Q) – „czego szukam”
- Key (K) – „co oferuję”
- Value (V) – „co mam do przekazania”
Następnie oblicza się macierz podobieństwa (attention scores) między Query a Key wszystkich tokenów, skaluje ją i normalizuje za pomocą softmax. Wynikowe wagi służą do ważonej sumy wektorów Value.
Scaled Dot-Product Attention
Attention(Q, K, V) = softmax( (Q·Kᵀ) / √dₖ ) · V
Skalowanie przez pierwiastek z wymiaru klucza (√dₖ) zapobiega zbyt dużym wartościom iloczynów skalarnych i niestabilności treningu.
Multi-Head Attention
Zamiast jednego mechanizmu uwagi, model używa wielu „głów” (heads) równolegle. Każda głowa uczy się innych typów zależności (składniowych, semantycznych, referencyjnych itp.). Wyniki wszystkich głów są konkatenowane i przepuszczane przez liniową warstwę.
Zalety Self-Attention
- Pełna paralelizacja – w przeciwieństwie do RNN/LSTM
- Globalny kontekst – każdy token widzi całą sekwencję od razu
- Interpretowalność – macierze uwagi można wizualizować
- Skalowalność – bardzo dobrze działa na długich kontekstach (szczególnie z ulepszeniami takimi jak FlashAttention, RoPE, ALiBi)
Porównanie z wcześniejszymi mechanizmami
- RNN / LSTM → sekwencyjne przetwarzanie, problem vanishing gradient, słaba pamięć długoterminowa
- CNN → lokalny kontekst (receptywne pole)
- Self-Attention → globalny kontekst + dynamiczne ważenie + równoległość
Zastosowania
- Wszystkie modele Transformer (BERT, GPT, T5, Llama, Mistral, Claude, Gemini itp.)
- Modele wizyjne (Vision Transformer)
- Modele multimodalne (CLIP, LLaVA, Chameleon)
- Systemy audio i wideo (Whisper, Video Transformer)
Aktualny status (2026)
Self-Attention pozostaje podstawowym budulcem prawie wszystkich najpotężniejszych modeli AI. Mimo pojawienia się alternatyw (Mamba, RWKV, RetNet, Test-Time Training), architektury oparte na Transformerach z ulepszonym Self-Attention nadal dominują w dziedzinie LLM. Najnowsze badania koncentrują się na efektywności (Sparse Attention, Linear Attention, FlashAttention-3) oraz obsłudze ekstremalnie długich kontekstów (nawet milionów tokenów).