Attention Mechanism | Encyklopedia AI

Wprowadzenie

Attention Mechanism (mechanizm uwagi) to technika pozwalająca modelowi dynamicznie skupiać się na różnych częściach sekwencji wejściowej w zależności od kontekstu. Jest to kluczowy element architektury Transformer, który zrewolucjonizował przetwarzanie języka naturalnego i stał się podstawą wszystkich współczesnych dużych modeli językowych.

Jak działa Attention Mechanism?

Dla każdego tokena model tworzy trzy wektory:

Query (Q) – „czego szukam”
Key (K) – „co oferuję”
Value (V) – „co mam do przekazania”

Następnie oblicza podobieństwo między Query a Key wszystkich tokenów, skaluje wynik i normalizuje za pomocą softmax. Wynikowe wagi służą do ważonej sumy wektorów Value.

Scaled Dot-Product Attention

Attention(Q, K, V) = softmax( (Q·Kᵀ) / √dₖ ) · V

Skalowanie przez pierwiastek z wymiaru klucza zapobiega zbyt dużym wartościom i niestabilności treningu.

Multi-Head Attention

Zamiast jednej operacji uwagi, model wykonuje ją równolegle w wielu „głowach”. Każda głowa może uczyć się innego typu zależności (składniowych, semantycznych, referencyjnych). Wyniki wszystkich głów są łączone i przetwarzane przez warstwę liniową.

Zalety mechanizmu uwagi

Globalny kontekst – każdy token widzi całą sekwencję naraz
Pełna paralelizacja (w przeciwieństwie do RNN)
Interpretowalność – można wizualizować macierze uwagi
Skalowalność na długie sekwencje (z ulepszeniami jak FlashAttention, RoPE)

Porównanie z wcześniejszymi mechanizmami

RNN / LSTM – przetwarzanie sekwencyjne, problemy z długim kontekstem
CNN – lokalny kontekst
Attention – globalny, dynamiczny kontekst

Aktualny status (2026)

Mechanizm uwagi pozostaje fundamentem prawie wszystkich najpotężniejszych modeli AI. Mimo pojawienia się alternatyw (Mamba, RWKV, RetNet), architektury oparte na Transformerach z ulepszonym Attention (FlashAttention-3, Grouped-Query Attention, Multi-Query Attention) nadal dominują. Aktualne badania koncentrują się na efektywności przy ekstremalnie długich kontekstach (miliony tokenów) oraz na wersjach liniowych i rzadkich (Sparse Attention).