Wprowadzenie
Artykuł opublikowany 12 czerwca 2017 roku przez zespół Ashisha Vaswaniego i współpracowników. Wprowadził architekturę Transformer i pokazał, że mechanizm uwagi (Attention) jest wystarczający – nie potrzeba rekurencji (RNN/LSTM).
Najważniejsze tezy pracy
- Rekurencja nie jest konieczna do przetwarzania sekwencji
- Self-Attention + Multi-Head Attention w zupełności wystarczą
- Transformer trenuje się znacznie szybciej dzięki pełnej równoległości
- Znacznie lepiej radzi sobie z długimi sekwencjami
Wpływ na branżę
- Podstawa wszystkich współczesnych LLM (GPT, BERT, Llama, Claude, Grok, Gemini…)
- Całkowita zmiana paradygmatu w NLP
- Przeniesienie architektury na wizję (Vision Transformer), audio, multimodal itp.
- Rozpoczęcie ery skalowalnych modeli AI
Znaczenie historyczne
Ta jedna publikacja jest uznawana za jeden z najważniejszych momentów w historii sztucznej inteligencji – porównywalny z AlexNet w 2012 roku.