Wprowadzenie
Vision Transformer (ViT) to model wprowadzony przez Google w 2020 roku, który jako pierwszy skutecznie zastosował architekturę transformera (pierwotnie stworzoną do tekstu) do przetwarzania obrazów. ViT udowodnił, że transformery mogą osiągać lub nawet przewyższać konwencjonalne sieci konwolucyjne (CNN) w zadaniach wizyjnych.
Jak działa Vision Transformer?
Obraz jest dzielony na małe fragmenty (patch’e) – najczęściej 16×16 pikseli. Każdy patch jest spłaszczany i przekształcany w embedding (podobnie jak tokeny w NLP). Do tych embeddingów dodawana jest pozycyjna informacja, a całość przetwarzana jest przez standardowe warstwy transformera z mechanizmem Self-Attention.
Porównanie ViT vs CNN
- ViT – globalne Self-Attention, lepiej łapie długodystansowe zależności
- CNN – lokalne operacje konwolucyjne, silny inductive bias
- ViT potrzebuje znacznie więcej danych do treningu
- Po pretreningu na ogromnych zbiorach (ImageNet-21k, JFT-300M) ViT osiąga bardzo wysokie wyniki
Zalety Vision Transformer
- Globalne rozumienie kontekstu obrazu
- Łatwość skalowania modelu
- Możliwość transfer learningu z tekstu (np. CLIP)
- Lepsza wydajność na bardzo dużych zbiorach danych
- Architektura jednolita dla wielu modalności (tekst + obraz + wideo)
Warianty i rozwinięcia
- DeiT – Data-efficient Image Transformer
- Swin Transformer – hierarchiczna wersja z Window Attention
- ViT-VQGAN / ViT-VAE – generatywne modele
- BEiT, DINO, MAE – samonadzorowane uczenie ViT
Aktualny status (2026)
Vision Transformer i jego warianty stały się podstawą nowoczesnego Computer Vision. Modele takie jak SigLIP, InternViT, EVA-02 czy najnowsze wersje Swin Transformer dominują w rankingach ImageNet, COCO i wielu zadaniach multimodalnych. Architektura ViT jest również kluczowym elementem dużych modeli multimodalnych (np. GPT-4o, Claude-3, Gemini).