Sparse Attention

Wprowadzenie

Sparse Attention to rodzina technik, które modyfikują mechanizm Self-Attention w Transformerach tak, aby nie obliczać uwagi dla wszystkich możliwych par tokenów. Zamiast złożoności O(n²), osiągają znacznie lepszą skalowalność — najczęściej O(n log n) lub nawet O(n).

Jest to jedno z kluczowych rozwiązań problemu długiego kontekstu w modelach językowych.

Problem pełnego Self-Attention

Standardowy mechanizm uwagi oblicza macierz n × n, co powoduje:

  • Kwadratowe zużycie pamięci VRAM
  • Bardzo wolny trening i inferencję przy kontekście > 8k–16k tokenów
  • Ograniczenia sprzętowe przy dłuższych sekwencjach

Główne rodzaje Sparse Attention

  • Sliding Window Attention – każdy token patrzy tylko na lokalne okno (np. 512 tokenów)
  • Dilated Attention – okna z przerwami (jak w dilated convolutions)
  • Global + Local Attention – kilka tokenów globalnych + lokalne okno (Longformer)
  • Random Attention + Global – BigBird
  • LSH Attention (Locality-Sensitive Hashing) – Reformer
  • Performer (FAVOR+) – przybliżenie za pomocą Random Feature Maps
  • Sinkhorn Attention – uczenie rozkładu uwagi jako problemu transportowego

Najpopularniejsze architektury

  • Longformer – połączenie lokalnego okna i globalnych tokenów
  • BigBird – random attention + global tokens + window
  • Reformer – LSH Attention
  • ETC (Extended Transformer Construction)
  • Modern approaches (2025–2026) – Ring Attention, Infini-Attention, Mamba (jako alternatywa)

Zalety Sparse Attention

  • Znacznie niższe zużycie pamięci
  • Możliwość przetwarzania bardzo długiego kontekstu (32k–1M+ tokenów)
  • Szybsza inferencja
  • Lepsza skalowalność modeli

Wady i kompromisy

  • Nieco niższa jakość w porównaniu do pełnego attention (w niektórych zadaniach)
  • Trudniejsza implementacja i optymalizacja
  • Wymaga starannego projektowania wzorca rzadkości

Najlepsze praktyki (2026)

  • Łącz Sparse Attention z Flash Attention 2/3
  • Używaj hybrydowych podejść (local + global + random)
  • Przy bardzo długim kontekście preferuj Ring Attention lub Infini-Attention
  • Testuj jakość na benchmarkach Long Context (LongBench, ∞Bench)

Powiązane pojęcia

Long Context Modeling • Ring Attention • Flash Attention • Longformer • BigBird • Reformer • Performer • Infini-Attention • Efficient Transformers