Wprowadzenie
One Shot Learning (uczenie jednopróbkowe) to paradygmat uczenia maszynowego, w którym model jest w stanie rozpoznać nową klasę obiektów lub wykonać nowe zadanie na podstawie tylko jednego przykładu. Stanowi przeciwieństwo klasycznego uczenia nadzorowanego, które wymaga setek lub tysięcy przykładów na klasę.
Dlaczego One Shot Learning jest potrzebny?
Ludzie potrafią rozpoznać nowy obiekt po jednokrotnym zobaczeniu. Tradycyjne sieci neuronowe tego nie umieją – potrzebują ogromnych zbiorów danych. One Shot Learning próbuje zbliżyć możliwości modeli AI do ludzkiej zdolności szybkiego uczenia.
Główne podejścia
- Siamese Networks – porównują podobieństwo dwóch przykładów (np. do weryfikacji twarzy)
- Matching Networks – używają mechanizmu uwagi do porównywania z przykładowym zbiorem
- Prototypical Networks – tworzą „prototyp” każdej klasy jako średni embedding
- Meta-Learning (MAML – Model-Agnostic Meta-Learning) – uczenie modelu, jak szybko się adaptować do nowych zadań
- Relation Networks i nowsze architektury oparte na Transformerach
One-Shot vs Few-Shot vs Zero-Shot
- One-Shot – 1 przykład na klasę
- Few-Shot – kilka (2–10) przykładów na klasę
- Zero-Shot – zero przykładów (model radzi sobie dzięki wiedzy pre-treningowej)
Zastosowania
- Rozpoznawanie twarzy i biometria
- Diagnostyka medyczna (rzadkie choroby)
- Rozpoznawanie obiektów w robotyce
- Personalizacja modeli (np. głos, styl pisania)
- Uczenie w warunkach z ograniczonymi danymi (low-data regimes)
- Nowoczesne LLM – in-context learning (np. GPT-4o, Claude)
Zalety
- Drastyczne zmniejszenie zapotrzebowania na dane etykietowane
- Szybka adaptacja do nowych klas i zadań
- Blisko ludzkiego sposobu uczenia
Ograniczenia
- Nadal niższa dokładność niż modele trenowane na dużych zbiorach
- Wrażliwość na jakość pojedynczego przykładu
- Trudniejsze skalowanie do bardzo złożonych zadań
Aktualny status (2026)
One Shot Learning ewoluował i stał się częścią szerszego pola Meta-Learning oraz In-Context Learning w dużych modelach językowych i wizyjnych. Dzięki potężnym modelom pre-trenowanym (jak GPT-4o, Claude 3.5, Llama 3, Gemini) few-shot i one-shot capabilities stały się niezwykle silne. Nowoczesne techniki łączą klasyczne metody (Prototypical Networks) z embeddingami z dużych modeli multimodalnych, co pozwala na świetne wyniki nawet przy jednym przykładzie w zadaniach takich jak klasyfikacja obrazów, generowanie na podstawie jednego zdjęcia czy adaptacja stylu.