Weak Supervision | Słaba Nadzór w Uczeniu Maszynowym

Wprowadzenie

Weak Supervision (Słaba Nadzór) to podejście w uczeniu maszynowym, w którym model jest trenowany na danych z niedokładnymi, niepełnymi lub automatycznie wygenerowanymi etykietami. Zamiast kosztownego ręcznego anotowania każdego przykładu, wykorzystuje się heurystyki, reguły biznesowe, słabe etykiety z zewnętrznych źródeł lub modele pomocnicze.

Główne typy Weak Supervision

Labeling Functions (Funkcje Etykietujące) – reguły napisane przez ekspertów domenowych
Distant Supervision – automatyczne etykietowanie na podstawie zewnętrznych baz wiedzy
Data Programming – programistyczne tworzenie etykiet (najpopularniejsze dzięki Snorkel)
Co-training i Multi-view Learning
Pseudo-labeling – samoetykietowanie przez model

Jak działa Weak Supervision w praktyce?

Zamiast jednej idealnej etykiety, tworzy się wiele „słabych” źródeł etykiet. Następnie stosuje się modele agregujące (np. generative model w Snorkel), które uczą się, jak łączyć te źródła i usuwać konflikty, tworząc finalne, denoizowane etykiety probabilistyczne.

Główne narzędzia

Snorkel – najpopularniejszy framework open-source
Snorkel Flow – wersja komercyjna
LabelStudio z wtyczkami weak supervision
WeakLab, ASTRA, FlyText

Zalety Weak Supervision

Znaczne obniżenie kosztów anotacji (nawet 10–100x)
Szybkie skalowanie na duże zbiory danych
Łatwe włączanie wiedzy eksperckiej
Dobra wydajność w branżach regulowanych (medycyna, prawo, finanse)

Wyzwania

Hałas w etykietach (noisy labels)
Konflikty między różnymi źródłami etykiet
Potrzeba zaawansowanych metod denoizacji
Często nieco niższa jakość modelu niż przy pełnym nadzorze

Powiązane pojęcia

Distant Supervision→Deep Supervision→Deep Supervised Learning→Self Supervised Learning→Deep Supervision Network→Noisy Student Training→