Window Attention | Encyklopedia AI

Wprowadzenie

Window Attention (uwaga w oknach) to mechanizm uwagi wprowadzony w architekturzeSwin Transformer w 2021 roku. Zamiast obliczać uwagę globalnie dla wszystkich tokenów (jak w klasycznym Vision Transformer), ogranicza obliczenia do małych lokalnych okien.

Jak działa Window Attention?

Obraz jest dzielony na nie nakładające się okna (np. 7×7 lub 14×14). Self-Attention jest obliczany tylko wewnątrz każdego okna. Dzięki temu złożoność obliczeniowa spada dramatycznie – z kwadratowej O(N²) do liniowej.

Shifted Window Attention

Aby okna mogły się komunikować, co drugą warstwę stosuje sięprzesunięte okna (Shifted Window). Dzięki temu informacja może przepływać między sąsiednimi regionami bez utraty efektywności.

Zalety Window Attention

Znacznie niższe zużycie pamięci i czasu obliczeń
Lepsza skalowalność na obrazy o wysokiej rozdzielczości
Zachowanie lokalnego inductive bias (podobnie jak w CNN)
Możliwość budowania hierarchicznych cech
Linearna złożoność względem rozmiaru obrazu

Porównanie z Global Attention

ViT – Global Self-Attention (bardzo kosztowne)
Swin Transformer – Window + Shifted Window Attention (wydajne)

Zastosowania

Klasyfikacja obrazów
Detekcja obiektów
Segmentacja semantyczna
Generowanie obrazów i wideo
Medyczne analizy obrazowe
Understanding sceny 3D

Aktualny status (2026)

Window Attention i jej warianty stały się standardem w nowoczesnych architekturach Computer Vision. Swin Transformer, SwinV2, FocalNet, ConvNeXt V2 i wiele innych topowych modeli bazuje właśnie na tym mechanizmie.