Wprowadzenie
Bias-Variance Tradeoff (kompromis między biasem a wariancją) to jedno z najbardziej fundamentalnych pojęć w uczeniu maszynowym. Opisuje ono, dlaczego modele nie mogą jednocześnie mieć niskiego błędu systematycznego i niskiej wariancji, oraz wyjaśnia przyczyny overfittingu i underfittingu.
Definicje
- Bias (błąd systematyczny) – błąd wynikający z uproszczenia modelu. Wysoki bias oznacza, że model jest zbyt prosty i nie jest w stanie uchwycić prawdziwej zależności w danych (underfitting).
- Variance (wariancja) – błąd wynikający z nadmiernej wrażliwości modelu na zmiany w danych treningowych. Wysoka wariancja oznacza, że model zbyt mocno dopasowuje się do szumu w danych treningowych (overfitting).
Matematyczny rozkład błędu
Total Error = Bias² + Variance + Irreducible Error
Irreducible Error (błąd nieredukowalny) wynika z szumu w danych i jest nieunikniony.
Tradeoff w praktyce
- Zbyt prosty model (np. regresja liniowa na danych nieliniowych) → wysoki bias, niska wariancja
- Zbyt złożony model (np. głębokie drzewo decyzyjne bez regularyzacji) → niski bias, wysoka wariancja
- Optymalny model – punkt kompromisu, w którym suma błędu biasu i wariancji jest najmniejsza
Jak zarządzać Bias-Variance Tradeoff?
- Zwiększanie złożoności modelu → zmniejsza bias, zwiększa wariancję
- Regularizacja (L1, L2, Dropout, Early Stopping) → zmniejsza wariancję
- Więcej danych treningowych → zmniejsza wariancję
- Ensemble methods (Random Forest, Boosting) → redukują wariancję przy zachowaniu niskiego biasu
- Cross Validation – pomaga znaleźć optymalny kompromis
Aktualny status (2026)
Bias-Variance Tradeoff pozostaje jednym z kluczowych koncepcji w uczeniu maszynowym, nawet w erze ogromnych modeli językowych. W kontekście LLM mówi się o „scaling laws” i emergent abilities, ale podstawowy tradeoff nadal obowiązuje – modele zbyt małe mają wysoki bias, modele zbyt duże (lub niedostatecznie wyregularyzowane) mają wysoką wariancję i skłonność do hallucynacji. Nowoczesne techniki (LoRA, RLHF, Constitutional AI, ensembling) są właśnie narzędziami do efektywnego zarządzania tym kompromisem.