Wprowadzenie
Multi-Head Attention to rozszerzenie mechanizmu Self-Attention, będące jednym z najważniejszych elementów architektury Transformer. Zamiast jednej operacji uwagi, model wykonuje ją równolegle w wielu „głowach” (heads), co pozwala mu jednocześnie skupiać się na różnych typach zależności w sekwencji.
Dlaczego wiele głów?
Jedna głowa uwagi może się skupiać tylko na jednym rodzaju relacji (np. relacji składniowej lub semantycznej). Dzięki wielu głowom model może równocześnie analizować:
- Relacje składniowe
- Relacje semantyczne i referencyjne
- Relacje temporalne i przyczynowo-skutkowe
- Relacje tematyczne i kontekstowe
Jak działa Multi-Head Attention?
Dla każdej głowy model tworzy osobne projekcje Query (Q), Key (K) i Value (V):
headi = Attention(QWiQ, KWiK, VWiV)
Następnie wszystkie głowy są konkatenowane i przepuszczane przez liniową warstwę:
MultiHead(Q, K, V) = Concat(head1, ..., headh) · WO
Zalety Multi-Head Attention
- Model uczy się różnorodnych reprezentacji tych samych danych
- Zwiększa pojemność modelu bez liniowego wzrostu parametrów
- Poprawia interpretowalność (można wizualizować każdą głowę osobno)
- Lepsza generalizacja i wydajność
Typowa liczba głów
- Transformer (oryginalny) – 8 głów
- BERT-base – 12 głów
- GPT-3 / Llama – 32–128 głów (w zależności od rozmiaru modelu)
- Nowoczesne modele – często 16–64 głów
Multi-Head Attention w praktyce
W architekturze Transformer każda warstwa zawiera dwa rodzaje Multi-Head Attention:
- Self-Attention (w encoderze i decoderze)
- Encoder-Decoder Attention (w decoderze – uwaga na wyjścia encodera)
Aktualny status (2026)
Multi-Head Attention pozostaje podstawowym budulcem wszystkich największych modeli językowych i multimodalnych. Mimo pojawienia się alternatyw (np. Mamba, RWKV, Linear Attention), architektury Transformer z ulepszonym Multi-Head Attention (Grouped-Query Attention, Multi-Query Attention, FlashAttention-2/3) nadal dominują. Nowoczesne techniki takie jak RoPE, ALiBi czy Sparse Attention są właśnie nakładane na mechanizm Multi-Head Attention.
To jeden z kluczowych wynalazków, który umożliwił stworzenie dzisiejszych potężnych modeli AI.