Window Attention

Wprowadzenie

Window Attention (uwaga w oknach) to mechanizm uwagi wprowadzony w architekturzeSwin Transformer w 2021 roku. Zamiast obliczać uwagę globalnie dla wszystkich tokenów (jak w klasycznym Vision Transformer), ogranicza obliczenia do małych lokalnych okien.

Jak działa Window Attention?

Obraz jest dzielony na nie nakładające się okna (np. 7×7 lub 14×14). Self-Attention jest obliczany tylko wewnątrz każdego okna. Dzięki temu złożoność obliczeniowa spada dramatycznie – z kwadratowej O(N²) do liniowej.

Shifted Window Attention

Aby okna mogły się komunikować, co drugą warstwę stosuje sięprzesunięte okna (Shifted Window). Dzięki temu informacja może przepływać między sąsiednimi regionami bez utraty efektywności.

Zalety Window Attention

  • Znacznie niższe zużycie pamięci i czasu obliczeń
  • Lepsza skalowalność na obrazy o wysokiej rozdzielczości
  • Zachowanie lokalnego inductive bias (podobnie jak w CNN)
  • Możliwość budowania hierarchicznych cech
  • Linearna złożoność względem rozmiaru obrazu

Porównanie z Global Attention

  • ViT – Global Self-Attention (bardzo kosztowne)
  • Swin Transformer – Window + Shifted Window Attention (wydajne)

Zastosowania

  • Klasyfikacja obrazów
  • Detekcja obiektów
  • Segmentacja semantyczna
  • Generowanie obrazów i wideo
  • Medyczne analizy obrazowe
  • Understanding sceny 3D

Aktualny status (2026)

Window Attention i jej warianty stały się standardem w nowoczesnych architekturach Computer Vision. Swin Transformer, SwinV2, FocalNet, ConvNeXt V2 i wiele innych topowych modeli bazuje właśnie na tym mechanizmie.