Multi-Head Attention | Encyklopedia AI

Wprowadzenie

Multi-Head Attention to rozszerzenie mechanizmu Self-Attention, będące jednym z najważniejszych elementów architektury Transformer. Zamiast jednej operacji uwagi, model wykonuje ją równolegle w wielu „głowach” (heads), co pozwala mu jednocześnie skupiać się na różnych typach zależności w sekwencji.

Dlaczego wiele głów?

Jedna głowa uwagi może się skupiać tylko na jednym rodzaju relacji (np. relacji składniowej lub semantycznej). Dzięki wielu głowom model może równocześnie analizować:

Relacje składniowe
Relacje semantyczne i referencyjne
Relacje temporalne i przyczynowo-skutkowe
Relacje tematyczne i kontekstowe

Jak działa Multi-Head Attention?

Dla każdej głowy model tworzy osobne projekcje Query (Q), Key (K) i Value (V):

head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

Następnie wszystkie głowy są konkatenowane i przepuszczane przez liniową warstwę:

MultiHead(Q, K, V) = Concat(head₁, ..., head_h) · W^O

Zalety Multi-Head Attention

Model uczy się różnorodnych reprezentacji tych samych danych
Zwiększa pojemność modelu bez liniowego wzrostu parametrów
Poprawia interpretowalność (można wizualizować każdą głowę osobno)
Lepsza generalizacja i wydajność

Typowa liczba głów

Transformer (oryginalny) – 8 głów
BERT-base – 12 głów
GPT-3 / Llama – 32–128 głów (w zależności od rozmiaru modelu)
Nowoczesne modele – często 16–64 głów

Multi-Head Attention w praktyce

W architekturze Transformer każda warstwa zawiera dwa rodzaje Multi-Head Attention:

Self-Attention (w encoderze i decoderze)
Encoder-Decoder Attention (w decoderze – uwaga na wyjścia encodera)

Aktualny status (2026)

Multi-Head Attention pozostaje podstawowym budulcem wszystkich największych modeli językowych i multimodalnych. Mimo pojawienia się alternatyw (np. Mamba, RWKV, Linear Attention), architektury Transformer z ulepszonym Multi-Head Attention (Grouped-Query Attention, Multi-Query Attention, FlashAttention-2/3) nadal dominują. Nowoczesne techniki takie jak RoPE, ALiBi czy Sparse Attention są właśnie nakładane na mechanizm Multi-Head Attention.

To jeden z kluczowych wynalazków, który umożliwił stworzenie dzisiejszych potężnych modeli AI.