Wprowadzenie
Noisy Student Training to zaawansowana metoda uczenia semi-supervised, wprowadzona przez Google w 2020 roku. Polega na iteracyjnym uczeniu modelu „Student” na danych etykietowanych i nieetykietowanych, przy jednoczesnym dodawaniu kontrolowanego szumu (noise) do studenta.
Jak działa Noisy Student Training?
Metoda opiera się na pętli Teacher-Student:
- Trenujemy model Teacher na w pełni etykietowanych danych.
- Teacher generuje pseudo-etykiety na dużych zbiorach nieetykietowanych danych.
- Trenujemy model Student na połączeniu danych etykietowanych + pseudo-etykietowanych.
- Do Student’a dodajemy szum (noise): dropout, stochastic depth, RandAugment.
- Student staje się nowym Teacher’em i proces się powtarza.
Kluczowa rola „Noise”
Dodanie szumu do Student’a jest kluczowe. Dzięki niemu Student nie kopiuje po prostu Teacher’a (co prowadziłoby do confirmation bias), lecz uczy się bardziej odpornych i uogólnionych reprezentacji. To właśnie odróżnia Noisy Student od klasycznego Self-Training.
Osiągnięcia
- EfficientNet-L2 osiągnął **88.4%** top-1 accuracy na ImageNet (2020)
- Przewyższył modele trenowane w pełni nadzorowane o dużą margines
- Znacznie lepsza odporność na perturbacje i ataki adversarialne
Zalety Noisy Student Training
- Skuteczne wykorzystanie ogromnych ilości nieetykietowanych danych
- Poprawa generalizacji i robustności modelu
- Prosta koncepcja, łatwa do zaimplementowania
- Możliwość iteracyjnego poprawiania modelu
Zastosowania (2026)
- Computer Vision (klasyfikacja obrazów, detekcja obiektów)
- Modele multimodalne
- Uczenie dużych modeli językowych (warianty Self-Training + Noisy Student)
- Medycyna (gdzie etykietowane dane są drogie)
- Autonomiczne pojazdy
Najlepsze praktyki
- Używaj silniejszego augmentacji dla Student’a niż dla Teacher’a
- Balansuj ilość danych etykietowanych i pseudo-etykietowanych
- Stosuj thresholding pseudo-labels (odrzucaj niepewne etykiety)
- Iteruj proces 2–3 razy
- Łącz z technikami takimi jak MixUp, CutMix lub Knowledge Distillation
Powiązane pojęcia
Semi-Supervised Learning • Self-Training • Pseudo-Labeling • Teacher-Student Framework • Knowledge Distillation • RandAugment • EfficientNet • Contrastive Learning