Noisy Student Training

Wprowadzenie

Noisy Student Training to zaawansowana metoda uczenia semi-supervised, wprowadzona przez Google w 2020 roku. Polega na iteracyjnym uczeniu modelu „Student” na danych etykietowanych i nieetykietowanych, przy jednoczesnym dodawaniu kontrolowanego szumu (noise) do studenta.

Jak działa Noisy Student Training?

Metoda opiera się na pętli Teacher-Student:

  1. Trenujemy model Teacher na w pełni etykietowanych danych.
  2. Teacher generuje pseudo-etykiety na dużych zbiorach nieetykietowanych danych.
  3. Trenujemy model Student na połączeniu danych etykietowanych + pseudo-etykietowanych.
  4. Do Student’a dodajemy szum (noise): dropout, stochastic depth, RandAugment.
  5. Student staje się nowym Teacher’em i proces się powtarza.

Kluczowa rola „Noise”

Dodanie szumu do Student’a jest kluczowe. Dzięki niemu Student nie kopiuje po prostu Teacher’a (co prowadziłoby do confirmation bias), lecz uczy się bardziej odpornych i uogólnionych reprezentacji. To właśnie odróżnia Noisy Student od klasycznego Self-Training.

Osiągnięcia

  • EfficientNet-L2 osiągnął **88.4%** top-1 accuracy na ImageNet (2020)
  • Przewyższył modele trenowane w pełni nadzorowane o dużą margines
  • Znacznie lepsza odporność na perturbacje i ataki adversarialne

Zalety Noisy Student Training

  • Skuteczne wykorzystanie ogromnych ilości nieetykietowanych danych
  • Poprawa generalizacji i robustności modelu
  • Prosta koncepcja, łatwa do zaimplementowania
  • Możliwość iteracyjnego poprawiania modelu

Zastosowania (2026)

  • Computer Vision (klasyfikacja obrazów, detekcja obiektów)
  • Modele multimodalne
  • Uczenie dużych modeli językowych (warianty Self-Training + Noisy Student)
  • Medycyna (gdzie etykietowane dane są drogie)
  • Autonomiczne pojazdy

Najlepsze praktyki

  • Używaj silniejszego augmentacji dla Student’a niż dla Teacher’a
  • Balansuj ilość danych etykietowanych i pseudo-etykietowanych
  • Stosuj thresholding pseudo-labels (odrzucaj niepewne etykiety)
  • Iteruj proces 2–3 razy
  • Łącz z technikami takimi jak MixUp, CutMix lub Knowledge Distillation

Powiązane pojęcia

Semi-Supervised Learning • Self-Training • Pseudo-Labeling • Teacher-Student Framework • Knowledge Distillation • RandAugment • EfficientNet • Contrastive Learning