One Shot Learning | Encyklopedia AI

Wprowadzenie

One Shot Learning (uczenie jednopróbkowe) to paradygmat uczenia maszynowego, w którym model jest w stanie rozpoznać nową klasę obiektów lub wykonać nowe zadanie na podstawie tylko jednego przykładu. Stanowi przeciwieństwo klasycznego uczenia nadzorowanego, które wymaga setek lub tysięcy przykładów na klasę.

Dlaczego One Shot Learning jest potrzebny?

Ludzie potrafią rozpoznać nowy obiekt po jednokrotnym zobaczeniu. Tradycyjne sieci neuronowe tego nie umieją – potrzebują ogromnych zbiorów danych. One Shot Learning próbuje zbliżyć możliwości modeli AI do ludzkiej zdolności szybkiego uczenia.

Główne podejścia

Siamese Networks – porównują podobieństwo dwóch przykładów (np. do weryfikacji twarzy)
Matching Networks – używają mechanizmu uwagi do porównywania z przykładowym zbiorem
Prototypical Networks – tworzą „prototyp” każdej klasy jako średni embedding
Meta-Learning (MAML – Model-Agnostic Meta-Learning) – uczenie modelu, jak szybko się adaptować do nowych zadań
Relation Networks i nowsze architektury oparte na Transformerach

One-Shot vs Few-Shot vs Zero-Shot

One-Shot – 1 przykład na klasę
Few-Shot – kilka (2–10) przykładów na klasę
Zero-Shot – zero przykładów (model radzi sobie dzięki wiedzy pre-treningowej)

Zastosowania

Rozpoznawanie twarzy i biometria
Diagnostyka medyczna (rzadkie choroby)
Rozpoznawanie obiektów w robotyce
Personalizacja modeli (np. głos, styl pisania)
Uczenie w warunkach z ograniczonymi danymi (low-data regimes)
Nowoczesne LLM – in-context learning (np. GPT-4o, Claude)

Zalety

Drastyczne zmniejszenie zapotrzebowania na dane etykietowane
Szybka adaptacja do nowych klas i zadań
Blisko ludzkiego sposobu uczenia

Ograniczenia

Nadal niższa dokładność niż modele trenowane na dużych zbiorach
Wrażliwość na jakość pojedynczego przykładu
Trudniejsze skalowanie do bardzo złożonych zadań

Aktualny status (2026)

One Shot Learning ewoluował i stał się częścią szerszego pola Meta-Learning oraz In-Context Learning w dużych modelach językowych i wizyjnych. Dzięki potężnym modelom pre-trenowanym (jak GPT-4o, Claude 3.5, Llama 3, Gemini) few-shot i one-shot capabilities stały się niezwykle silne. Nowoczesne techniki łączą klasyczne metody (Prototypical Networks) z embeddingami z dużych modeli multimodalnych, co pozwala na świetne wyniki nawet przy jednym przykładzie w zadaniach takich jak klasyfikacja obrazów, generowanie na podstawie jednego zdjęcia czy adaptacja stylu.