Zero-Shot Learning

Wprowadzenie

Zero-Shot Learning (ZSL) to zaawansowana technika uczenia maszynowego, w której model jest w stanie rozpoznawać i klasyfikować nowe klasy obiektów, których nigdy wcześniej nie widział podczas treningu.

Jak działa Zero-Shot Learning?

Zamiast uczyć model na tysiącach przykładów każdej klasy, dostarcza się muopis semantyczny lub embeddingi (np. tekstowe opisy klas). Model wykorzystuje wiedzę zdobytą wcześniej (np. z ogromnych modeli językowych), aby powiązać nowe klasy z tym, co już „wie”.

Główne podejścia

  • Attribute-based – używanie atrybutów (np. „ma skrzydła”, „jest drapieżnikiem”)
  • Embedding-based – mapowanie obrazów i tekstu do wspólnej przestrzeni (CLIP, ALIGN)
  • Generative – generowanie syntetycznych przykładów dla nowych klas
  • Prompt-based – popularne w erze LLM (np. „To zdjęcie przedstawia...”)

Zalety Zero-Shot Learning

  • Brak potrzeby zbierania dużych zbiorów danych dla nowych klas
  • Ekstremalna elastyczność i skalowalność
  • Znaczne obniżenie kosztów etykietowania danych
  • Możliwość działania w dynamicznie zmieniającym się środowisku

Przykłady zastosowań

  • Rozpoznawanie obiektów w obrazach (CLIP, SigLIP)
  • Klasyfikacja tekstu bez treningu
  • Generowanie obrazów na podstawie tekstu (DALL·E, Stable Diffusion)
  • Medycyna – diagnozowanie rzadkich chorób
  • Systemy rekomendacyjne

Aktualny status (2026)

Zero-Shot Learning stał się jedną z kluczowych zdolności dużych modeli multimodalnych. Dzięki modelom takim jak GPT-4o, Claude 3.5, Gemini 1.5 oraz CLIP-owi i jego następcom, zero-shot performance osiągnęło poziom, który jeszcze kilka lat temu wydawał się niemożliwy.