Attention Is All You Need | Encyklopedia AI

Wprowadzenie

Artykuł opublikowany 12 czerwca 2017 roku przez zespół Ashisha Vaswaniego i współpracowników. Wprowadził architekturę Transformer i pokazał, że mechanizm uwagi (Attention) jest wystarczający – nie potrzeba rekurencji (RNN/LSTM).

Najważniejsze tezy pracy

Rekurencja nie jest konieczna do przetwarzania sekwencji
Self-Attention + Multi-Head Attention w zupełności wystarczą
Transformer trenuje się znacznie szybciej dzięki pełnej równoległości
Znacznie lepiej radzi sobie z długimi sekwencjami

Wpływ na branżę

Podstawa wszystkich współczesnych LLM (GPT, BERT, Llama, Claude, Grok, Gemini…)
Całkowita zmiana paradygmatu w NLP
Przeniesienie architektury na wizję (Vision Transformer), audio, multimodal itp.
Rozpoczęcie ery skalowalnych modeli AI

Znaczenie historyczne

Ta jedna publikacja jest uznawana za jeden z najważniejszych momentów w historii sztucznej inteligencji – porównywalny z AlexNet w 2012 roku.

Powiązane pojęcia

Attention Model→Attention Mechanism→Multi Head Attention→Self Attention→Channel Attention→Chunked Attention→Cross Attention→Decoder Attention→Deep Attention RL→Deformable Attention→