Wprowadzenie
Attention Mechanism (mechanizm uwagi) to technika pozwalająca modelowi dynamicznie skupiać się na różnych częściach sekwencji wejściowej w zależności od kontekstu. Jest to kluczowy element architektury Transformer, który zrewolucjonizował przetwarzanie języka naturalnego i stał się podstawą wszystkich współczesnych dużych modeli językowych.
Jak działa Attention Mechanism?
Dla każdego tokena model tworzy trzy wektory:
- Query (Q) – „czego szukam”
- Key (K) – „co oferuję”
- Value (V) – „co mam do przekazania”
Następnie oblicza podobieństwo między Query a Key wszystkich tokenów, skaluje wynik i normalizuje za pomocą softmax. Wynikowe wagi służą do ważonej sumy wektorów Value.
Scaled Dot-Product Attention
Attention(Q, K, V) = softmax( (Q·Kᵀ) / √dₖ ) · V
Skalowanie przez pierwiastek z wymiaru klucza zapobiega zbyt dużym wartościom i niestabilności treningu.
Multi-Head Attention
Zamiast jednej operacji uwagi, model wykonuje ją równolegle w wielu „głowach”. Każda głowa może uczyć się innego typu zależności (składniowych, semantycznych, referencyjnych). Wyniki wszystkich głów są łączone i przetwarzane przez warstwę liniową.
Zalety mechanizmu uwagi
- Globalny kontekst – każdy token widzi całą sekwencję naraz
- Pełna paralelizacja (w przeciwieństwie do RNN)
- Interpretowalność – można wizualizować macierze uwagi
- Skalowalność na długie sekwencje (z ulepszeniami jak FlashAttention, RoPE)
Porównanie z wcześniejszymi mechanizmami
- RNN / LSTM – przetwarzanie sekwencyjne, problemy z długim kontekstem
- CNN – lokalny kontekst
- Attention – globalny, dynamiczny kontekst
Aktualny status (2026)
Mechanizm uwagi pozostaje fundamentem prawie wszystkich najpotężniejszych modeli AI. Mimo pojawienia się alternatyw (Mamba, RWKV, RetNet), architektury oparte na Transformerach z ulepszonym Attention (FlashAttention-3, Grouped-Query Attention, Multi-Query Attention) nadal dominują. Aktualne badania koncentrują się na efektywności przy ekstremalnie długich kontekstach (miliony tokenów) oraz na wersjach liniowych i rzadkich (Sparse Attention).