Vision Transformer (ViT)

Wprowadzenie

Vision Transformer (ViT) to model wprowadzony przez Google w 2020 roku, który jako pierwszy skutecznie zastosował architekturę transformera (pierwotnie stworzoną do tekstu) do przetwarzania obrazów. ViT udowodnił, że transformery mogą osiągać lub nawet przewyższać konwencjonalne sieci konwolucyjne (CNN) w zadaniach wizyjnych.

Jak działa Vision Transformer?

Obraz jest dzielony na małe fragmenty (patch’e) – najczęściej 16×16 pikseli. Każdy patch jest spłaszczany i przekształcany w embedding (podobnie jak tokeny w NLP). Do tych embeddingów dodawana jest pozycyjna informacja, a całość przetwarzana jest przez standardowe warstwy transformera z mechanizmem Self-Attention.

Porównanie ViT vs CNN

  • ViT – globalne Self-Attention, lepiej łapie długodystansowe zależności
  • CNN – lokalne operacje konwolucyjne, silny inductive bias
  • ViT potrzebuje znacznie więcej danych do treningu
  • Po pretreningu na ogromnych zbiorach (ImageNet-21k, JFT-300M) ViT osiąga bardzo wysokie wyniki

Zalety Vision Transformer

  • Globalne rozumienie kontekstu obrazu
  • Łatwość skalowania modelu
  • Możliwość transfer learningu z tekstu (np. CLIP)
  • Lepsza wydajność na bardzo dużych zbiorach danych
  • Architektura jednolita dla wielu modalności (tekst + obraz + wideo)

Warianty i rozwinięcia

  • DeiT – Data-efficient Image Transformer
  • Swin Transformer – hierarchiczna wersja z Window Attention
  • ViT-VQGAN / ViT-VAE – generatywne modele
  • BEiT, DINO, MAE – samonadzorowane uczenie ViT

Aktualny status (2026)

Vision Transformer i jego warianty stały się podstawą nowoczesnego Computer Vision. Modele takie jak SigLIP, InternViT, EVA-02 czy najnowsze wersje Swin Transformer dominują w rankingach ImageNet, COCO i wielu zadaniach multimodalnych. Architektura ViT jest również kluczowym elementem dużych modeli multimodalnych (np. GPT-4o, Claude-3, Gemini).