Vision Transformer (ViT) | Encyklopedia AI

Wprowadzenie

Vision Transformer (ViT) to model wprowadzony przez Google w 2020 roku, który jako pierwszy skutecznie zastosował architekturę transformera (pierwotnie stworzoną do tekstu) do przetwarzania obrazów. ViT udowodnił, że transformery mogą osiągać lub nawet przewyższać konwencjonalne sieci konwolucyjne (CNN) w zadaniach wizyjnych.

Jak działa Vision Transformer?

Obraz jest dzielony na małe fragmenty (patch’e) – najczęściej 16×16 pikseli. Każdy patch jest spłaszczany i przekształcany w embedding (podobnie jak tokeny w NLP). Do tych embeddingów dodawana jest pozycyjna informacja, a całość przetwarzana jest przez standardowe warstwy transformera z mechanizmem Self-Attention.

Porównanie ViT vs CNN

ViT – globalne Self-Attention, lepiej łapie długodystansowe zależności
CNN – lokalne operacje konwolucyjne, silny inductive bias
ViT potrzebuje znacznie więcej danych do treningu
Po pretreningu na ogromnych zbiorach (ImageNet-21k, JFT-300M) ViT osiąga bardzo wysokie wyniki

Zalety Vision Transformer

Globalne rozumienie kontekstu obrazu
Łatwość skalowania modelu
Możliwość transfer learningu z tekstu (np. CLIP)
Lepsza wydajność na bardzo dużych zbiorach danych
Architektura jednolita dla wielu modalności (tekst + obraz + wideo)

Warianty i rozwinięcia

DeiT – Data-efficient Image Transformer
Swin Transformer – hierarchiczna wersja z Window Attention
ViT-VQGAN / ViT-VAE – generatywne modele
BEiT, DINO, MAE – samonadzorowane uczenie ViT

Aktualny status (2026)

Vision Transformer i jego warianty stały się podstawą nowoczesnego Computer Vision. Modele takie jak SigLIP, InternViT, EVA-02 czy najnowsze wersje Swin Transformer dominują w rankingach ImageNet, COCO i wielu zadaniach multimodalnych. Architektura ViT jest również kluczowym elementem dużych modeli multimodalnych (np. GPT-4o, Claude-3, Gemini).