Weak Supervision

Wprowadzenie

Weak Supervision (Słaba Nadzór) to podejście w uczeniu maszynowym, w którym model jest trenowany na danych z niedokładnymi, niepełnymi lub automatycznie wygenerowanymi etykietami. Zamiast kosztownego ręcznego anotowania każdego przykładu, wykorzystuje się heurystyki, reguły biznesowe, słabe etykiety z zewnętrznych źródeł lub modele pomocnicze.

Główne typy Weak Supervision

  • Labeling Functions (Funkcje Etykietujące) – reguły napisane przez ekspertów domenowych
  • Distant Supervision – automatyczne etykietowanie na podstawie zewnętrznych baz wiedzy
  • Data Programming – programistyczne tworzenie etykiet (najpopularniejsze dzięki Snorkel)
  • Co-training i Multi-view Learning
  • Pseudo-labeling – samoetykietowanie przez model

Jak działa Weak Supervision w praktyce?

Zamiast jednej idealnej etykiety, tworzy się wiele „słabych” źródeł etykiet. Następnie stosuje się modele agregujące (np. generative model w Snorkel), które uczą się, jak łączyć te źródła i usuwać konflikty, tworząc finalne, denoizowane etykiety probabilistyczne.

Główne narzędzia

  • Snorkel – najpopularniejszy framework open-source
  • Snorkel Flow – wersja komercyjna
  • LabelStudio z wtyczkami weak supervision
  • WeakLab, ASTRA, FlyText

Zalety Weak Supervision

  • Znaczne obniżenie kosztów anotacji (nawet 10–100x)
  • Szybkie skalowanie na duże zbiory danych
  • Łatwe włączanie wiedzy eksperckiej
  • Dobra wydajność w branżach regulowanych (medycyna, prawo, finanse)

Wyzwania

  • Hałas w etykietach (noisy labels)
  • Konflikty między różnymi źródłami etykiet
  • Potrzeba zaawansowanych metod denoizacji
  • Często nieco niższa jakość modelu niż przy pełnym nadzorze

Powiązane pojęcia

Snorkel • Data Programming • Semi-Supervised Learning • Noisy Labels • Pseudo-Labeling • Distant Supervision • Active Learning • Self-Supervised Learning • Label Aggregation