Wprowadzenie
Zero-Shot Learning (ZSL) to zaawansowana technika uczenia maszynowego, w której model jest w stanie rozpoznawać i klasyfikować nowe klasy obiektów, których nigdy wcześniej nie widział podczas treningu.
Jak działa Zero-Shot Learning?
Zamiast uczyć model na tysiącach przykładów każdej klasy, dostarcza się muopis semantyczny lub embeddingi (np. tekstowe opisy klas). Model wykorzystuje wiedzę zdobytą wcześniej (np. z ogromnych modeli językowych), aby powiązać nowe klasy z tym, co już „wie”.
Główne podejścia
- Attribute-based – używanie atrybutów (np. „ma skrzydła”, „jest drapieżnikiem”)
- Embedding-based – mapowanie obrazów i tekstu do wspólnej przestrzeni (CLIP, ALIGN)
- Generative – generowanie syntetycznych przykładów dla nowych klas
- Prompt-based – popularne w erze LLM (np. „To zdjęcie przedstawia...”)
Zalety Zero-Shot Learning
- Brak potrzeby zbierania dużych zbiorów danych dla nowych klas
- Ekstremalna elastyczność i skalowalność
- Znaczne obniżenie kosztów etykietowania danych
- Możliwość działania w dynamicznie zmieniającym się środowisku
Przykłady zastosowań
- Rozpoznawanie obiektów w obrazach (CLIP, SigLIP)
- Klasyfikacja tekstu bez treningu
- Generowanie obrazów na podstawie tekstu (DALL·E, Stable Diffusion)
- Medycyna – diagnozowanie rzadkich chorób
- Systemy rekomendacyjne
Aktualny status (2026)
Zero-Shot Learning stał się jedną z kluczowych zdolności dużych modeli multimodalnych. Dzięki modelom takim jak GPT-4o, Claude 3.5, Gemini 1.5 oraz CLIP-owi i jego następcom, zero-shot performance osiągnęło poziom, który jeszcze kilka lat temu wydawał się niemożliwy.