Wprowadzenie
Sparse Attention to rodzina technik, które modyfikują mechanizm Self-Attention w Transformerach tak, aby nie obliczać uwagi dla wszystkich możliwych par tokenów. Zamiast złożoności O(n²), osiągają znacznie lepszą skalowalność — najczęściej O(n log n) lub nawet O(n).
Jest to jedno z kluczowych rozwiązań problemu długiego kontekstu w modelach językowych.
Problem pełnego Self-Attention
Standardowy mechanizm uwagi oblicza macierz n × n, co powoduje:
- Kwadratowe zużycie pamięci VRAM
- Bardzo wolny trening i inferencję przy kontekście > 8k–16k tokenów
- Ograniczenia sprzętowe przy dłuższych sekwencjach
Główne rodzaje Sparse Attention
- Sliding Window Attention – każdy token patrzy tylko na lokalne okno (np. 512 tokenów)
- Dilated Attention – okna z przerwami (jak w dilated convolutions)
- Global + Local Attention – kilka tokenów globalnych + lokalne okno (Longformer)
- Random Attention + Global – BigBird
- LSH Attention (Locality-Sensitive Hashing) – Reformer
- Performer (FAVOR+) – przybliżenie za pomocą Random Feature Maps
- Sinkhorn Attention – uczenie rozkładu uwagi jako problemu transportowego
Najpopularniejsze architektury
- Longformer – połączenie lokalnego okna i globalnych tokenów
- BigBird – random attention + global tokens + window
- Reformer – LSH Attention
- ETC (Extended Transformer Construction)
- Modern approaches (2025–2026) – Ring Attention, Infini-Attention, Mamba (jako alternatywa)
Zalety Sparse Attention
- Znacznie niższe zużycie pamięci
- Możliwość przetwarzania bardzo długiego kontekstu (32k–1M+ tokenów)
- Szybsza inferencja
- Lepsza skalowalność modeli
Wady i kompromisy
- Nieco niższa jakość w porównaniu do pełnego attention (w niektórych zadaniach)
- Trudniejsza implementacja i optymalizacja
- Wymaga starannego projektowania wzorca rzadkości
Najlepsze praktyki (2026)
- Łącz Sparse Attention z Flash Attention 2/3
- Używaj hybrydowych podejść (local + global + random)
- Przy bardzo długim kontekście preferuj Ring Attention lub Infini-Attention
- Testuj jakość na benchmarkach Long Context (LongBench, ∞Bench)
Powiązane pojęcia
Long Context Modeling • Ring Attention • Flash Attention • Longformer • BigBird • Reformer • Performer • Infini-Attention • Efficient Transformers