Multi-Head Attention

Wprowadzenie

Multi-Head Attention to rozszerzenie mechanizmu Self-Attention, będące jednym z najważniejszych elementów architektury Transformer. Zamiast jednej operacji uwagi, model wykonuje ją równolegle w wielu „głowach” (heads), co pozwala mu jednocześnie skupiać się na różnych typach zależności w sekwencji.

Dlaczego wiele głów?

Jedna głowa uwagi może się skupiać tylko na jednym rodzaju relacji (np. relacji składniowej lub semantycznej). Dzięki wielu głowom model może równocześnie analizować:

  • Relacje składniowe
  • Relacje semantyczne i referencyjne
  • Relacje temporalne i przyczynowo-skutkowe
  • Relacje tematyczne i kontekstowe

Jak działa Multi-Head Attention?

Dla każdej głowy model tworzy osobne projekcje Query (Q), Key (K) i Value (V):

headi = Attention(QWiQ, KWiK, VWiV)

Następnie wszystkie głowy są konkatenowane i przepuszczane przez liniową warstwę:

MultiHead(Q, K, V) = Concat(head1, ..., headh) · WO

Zalety Multi-Head Attention

  • Model uczy się różnorodnych reprezentacji tych samych danych
  • Zwiększa pojemność modelu bez liniowego wzrostu parametrów
  • Poprawia interpretowalność (można wizualizować każdą głowę osobno)
  • Lepsza generalizacja i wydajność

Typowa liczba głów

  • Transformer (oryginalny) – 8 głów
  • BERT-base – 12 głów
  • GPT-3 / Llama – 32–128 głów (w zależności od rozmiaru modelu)
  • Nowoczesne modele – często 16–64 głów

Multi-Head Attention w praktyce

W architekturze Transformer każda warstwa zawiera dwa rodzaje Multi-Head Attention:

  • Self-Attention (w encoderze i decoderze)
  • Encoder-Decoder Attention (w decoderze – uwaga na wyjścia encodera)

Aktualny status (2026)

Multi-Head Attention pozostaje podstawowym budulcem wszystkich największych modeli językowych i multimodalnych. Mimo pojawienia się alternatyw (np. Mamba, RWKV, Linear Attention), architektury Transformer z ulepszonym Multi-Head Attention (Grouped-Query Attention, Multi-Query Attention, FlashAttention-2/3) nadal dominują. Nowoczesne techniki takie jak RoPE, ALiBi czy Sparse Attention są właśnie nakładane na mechanizm Multi-Head Attention.

To jeden z kluczowych wynalazków, który umożliwił stworzenie dzisiejszych potężnych modeli AI.