Wprowadzenie
Overfitting (przeuczenie) to jedno z najczęstszych i najbardziej niebezpiecznych zjawisk w uczeniu maszynowym. Występuje, gdy model zbyt dobrze dopasowuje się do danych treningowych, zapamiętując szum, outliers i specyficzne detale zamiast uczyć się ogólnych, użytecznych wzorców.
Jak rozpoznać Overfitting?
- Bardzo wysoka dokładność na zbiorze treningowym
- Znacznie niższa dokładność na zbiorze walidacyjnym/testowym
- Duża różnica między loss na train a loss na validation
- Model zachowuje się niestabilnie na nowych danych
Przyczyny Overfittingu
- Zbyt złożony model (zbyt wiele parametrów względem ilości danych)
- Zbyt mała ilość danych treningowych
- Zbyt długi trening (model zaczyna uczyć się szumu)
- Brak lub zbyt słaba regularyzacja
- Wyciek danych (data leakage)
Metody zapobiegania Overfittingowi
- Regularization – L1 (Lasso), L2 (Ridge), Elastic Net
- Dropout – losowe wyłączanie neuronów podczas treningu
- Early Stopping – zatrzymanie treningu, gdy walidacja przestaje się poprawiać
- Data Augmentation – sztuczne powiększanie zbioru danych
- Cross-Validation – bardziej wiarygodna ocena modelu
- Batch Normalization i Weight Decay
- Redukcja złożoności modelu (mniej warstw/neuronów)
- Ensemble learning (Random Forest, Boosting)
Overfitting vs Underfitting
- Overfitting – model zbyt skomplikowany (high variance)
- Underfitting – model zbyt prosty (high bias)
- Celem jest znalezienie złotego środka – dobra generalizacja
Overfitting w erze dużych modeli językowych
W kontekście LLM overfitting jest mniej widoczny ze względu na ogromne zbiory danych, ale nadal występuje. Objawia się m.in. zapamiętywaniem fragmentów treningowych (memorization), generowaniem powtarzających się tekstów czy słabą generalizacją na nowe domeny.
Aktualny status (2026)
Overfitting pozostaje fundamentalnym wyzwaniem w uczeniu maszynowym. W erze modeli o setkach miliardów parametrów walka z przeuczeniem odbywa się na wielu poziomach: od technik regularyzacji, przez architektury (np. Mixture of Experts), po skalowanie danych i użycie synthetic data. Nowoczesne metody takie jak LoRA/QLoRA, DPO, oraz zaawansowane techniki regularyzacji pozwalają trenować ogromne modele przy jednoczesnym utrzymaniu dobrej generalizacji. Umiejętność diagnozowania i zapobiegania overfittingowi jest jedną z kluczowych kompetencji każdego specjalisty AI.