Wprowadzenie
Window Attention (uwaga w oknach) to mechanizm uwagi wprowadzony w architekturzeSwin Transformer w 2021 roku. Zamiast obliczać uwagę globalnie dla wszystkich tokenów (jak w klasycznym Vision Transformer), ogranicza obliczenia do małych lokalnych okien.
Jak działa Window Attention?
Obraz jest dzielony na nie nakładające się okna (np. 7×7 lub 14×14). Self-Attention jest obliczany tylko wewnątrz każdego okna. Dzięki temu złożoność obliczeniowa spada dramatycznie – z kwadratowej O(N²) do liniowej.
Shifted Window Attention
Aby okna mogły się komunikować, co drugą warstwę stosuje sięprzesunięte okna (Shifted Window). Dzięki temu informacja może przepływać między sąsiednimi regionami bez utraty efektywności.
Zalety Window Attention
- Znacznie niższe zużycie pamięci i czasu obliczeń
- Lepsza skalowalność na obrazy o wysokiej rozdzielczości
- Zachowanie lokalnego inductive bias (podobnie jak w CNN)
- Możliwość budowania hierarchicznych cech
- Linearna złożoność względem rozmiaru obrazu
Porównanie z Global Attention
- ViT – Global Self-Attention (bardzo kosztowne)
- Swin Transformer – Window + Shifted Window Attention (wydajne)
Zastosowania
- Klasyfikacja obrazów
- Detekcja obiektów
- Segmentacja semantyczna
- Generowanie obrazów i wideo
- Medyczne analizy obrazowe
- Understanding sceny 3D
Aktualny status (2026)
Window Attention i jej warianty stały się standardem w nowoczesnych architekturach Computer Vision. Swin Transformer, SwinV2, FocalNet, ConvNeXt V2 i wiele innych topowych modeli bazuje właśnie na tym mechanizmie.