Noisy Student Training – Semi-Supervised Learning z Dodatkowym Szumem

Wprowadzenie

Noisy Student Training to zaawansowana metoda uczenia semi-supervised, wprowadzona przez Google w 2020 roku. Polega na iteracyjnym uczeniu modelu „Student” na danych etykietowanych i nieetykietowanych, przy jednoczesnym dodawaniu kontrolowanego szumu (noise) do studenta.

Jak działa Noisy Student Training?

Metoda opiera się na pętli Teacher-Student:

Trenujemy model Teacher na w pełni etykietowanych danych.
Teacher generuje pseudo-etykiety na dużych zbiorach nieetykietowanych danych.
Trenujemy model Student na połączeniu danych etykietowanych + pseudo-etykietowanych.
Do Student’a dodajemy szum (noise): dropout, stochastic depth, RandAugment.
Student staje się nowym Teacher’em i proces się powtarza.

Kluczowa rola „Noise”

Dodanie szumu do Student’a jest kluczowe. Dzięki niemu Student nie kopiuje po prostu Teacher’a (co prowadziłoby do confirmation bias), lecz uczy się bardziej odpornych i uogólnionych reprezentacji. To właśnie odróżnia Noisy Student od klasycznego Self-Training.

Osiągnięcia

EfficientNet-L2 osiągnął **88.4%** top-1 accuracy na ImageNet (2020)
Przewyższył modele trenowane w pełni nadzorowane o dużą margines
Znacznie lepsza odporność na perturbacje i ataki adversarialne

Zalety Noisy Student Training

Skuteczne wykorzystanie ogromnych ilości nieetykietowanych danych
Poprawa generalizacji i robustności modelu
Prosta koncepcja, łatwa do zaimplementowania
Możliwość iteracyjnego poprawiania modelu

Zastosowania (2026)

Computer Vision (klasyfikacja obrazów, detekcja obiektów)
Modele multimodalne
Uczenie dużych modeli językowych (warianty Self-Training + Noisy Student)
Medycyna (gdzie etykietowane dane są drogie)
Autonomiczne pojazdy

Najlepsze praktyki

Używaj silniejszego augmentacji dla Student’a niż dla Teacher’a
Balansuj ilość danych etykietowanych i pseudo-etykietowanych
Stosuj thresholding pseudo-labels (odrzucaj niepewne etykiety)
Iteruj proces 2–3 razy
Łącz z technikami takimi jak MixUp, CutMix lub Knowledge Distillation

Powiązane pojęcia

Self Supervised Learning→Co Training→Deep Supervised Learning→Adversarial Training→Ddp Training→Distributed Training→Ema Training→Immersive Training AI→Jax Training AI→Joint Training AI→