Wprowadzenie
Weak Supervision (Słaba Nadzór) to podejście w uczeniu maszynowym, w którym model jest trenowany na danych z niedokładnymi, niepełnymi lub automatycznie wygenerowanymi etykietami. Zamiast kosztownego ręcznego anotowania każdego przykładu, wykorzystuje się heurystyki, reguły biznesowe, słabe etykiety z zewnętrznych źródeł lub modele pomocnicze.
Główne typy Weak Supervision
- Labeling Functions (Funkcje Etykietujące) – reguły napisane przez ekspertów domenowych
- Distant Supervision – automatyczne etykietowanie na podstawie zewnętrznych baz wiedzy
- Data Programming – programistyczne tworzenie etykiet (najpopularniejsze dzięki Snorkel)
- Co-training i Multi-view Learning
- Pseudo-labeling – samoetykietowanie przez model
Jak działa Weak Supervision w praktyce?
Zamiast jednej idealnej etykiety, tworzy się wiele „słabych” źródeł etykiet. Następnie stosuje się modele agregujące (np. generative model w Snorkel), które uczą się, jak łączyć te źródła i usuwać konflikty, tworząc finalne, denoizowane etykiety probabilistyczne.
Główne narzędzia
- Snorkel – najpopularniejszy framework open-source
- Snorkel Flow – wersja komercyjna
- LabelStudio z wtyczkami weak supervision
- WeakLab, ASTRA, FlyText
Zalety Weak Supervision
- Znaczne obniżenie kosztów anotacji (nawet 10–100x)
- Szybkie skalowanie na duże zbiory danych
- Łatwe włączanie wiedzy eksperckiej
- Dobra wydajność w branżach regulowanych (medycyna, prawo, finanse)
Wyzwania
- Hałas w etykietach (noisy labels)
- Konflikty między różnymi źródłami etykiet
- Potrzeba zaawansowanych metod denoizacji
- Często nieco niższa jakość modelu niż przy pełnym nadzorze
Powiązane pojęcia
Snorkel • Data Programming • Semi-Supervised Learning • Noisy Labels • Pseudo-Labeling • Distant Supervision • Active Learning • Self-Supervised Learning • Label Aggregation