Zero-Shot Learning | Encyklopedia AI

Wprowadzenie

Zero-Shot Learning (ZSL) to zaawansowana technika uczenia maszynowego, w której model jest w stanie rozpoznawać i klasyfikować nowe klasy obiektów, których nigdy wcześniej nie widział podczas treningu.

Jak działa Zero-Shot Learning?

Zamiast uczyć model na tysiącach przykładów każdej klasy, dostarcza się muopis semantyczny lub embeddingi (np. tekstowe opisy klas). Model wykorzystuje wiedzę zdobytą wcześniej (np. z ogromnych modeli językowych), aby powiązać nowe klasy z tym, co już „wie”.

Główne podejścia

Attribute-based – używanie atrybutów (np. „ma skrzydła”, „jest drapieżnikiem”)
Embedding-based – mapowanie obrazów i tekstu do wspólnej przestrzeni (CLIP, ALIGN)
Generative – generowanie syntetycznych przykładów dla nowych klas
Prompt-based – popularne w erze LLM (np. „To zdjęcie przedstawia...”)

Zalety Zero-Shot Learning

Brak potrzeby zbierania dużych zbiorów danych dla nowych klas
Ekstremalna elastyczność i skalowalność
Znaczne obniżenie kosztów etykietowania danych
Możliwość działania w dynamicznie zmieniającym się środowisku

Przykłady zastosowań

Rozpoznawanie obiektów w obrazach (CLIP, SigLIP)
Klasyfikacja tekstu bez treningu
Generowanie obrazów na podstawie tekstu (DALL·E, Stable Diffusion)
Medycyna – diagnozowanie rzadkich chorób
Systemy rekomendacyjne

Aktualny status (2026)

Zero-Shot Learning stał się jedną z kluczowych zdolności dużych modeli multimodalnych. Dzięki modelom takim jak GPT-4o, Claude 3.5, Gemini 1.5 oraz CLIP-owi i jego następcom, zero-shot performance osiągnęło poziom, który jeszcze kilka lat temu wydawał się niemożliwy.