Wprowadzenie
Overparameterization (przeparametryzacja) to sytuacja, w której liczba parametrów modelu jest znacznie większa niż liczba przykładów treningowych. Zgodnie z klasyczną teorią uczenia maszynowego taki model powinien silnie overfitować. W praktyce jednak głębokie sieci neuronowe z miliardami parametrów osiągają doskonałą generalizację.
Dlaczego overparameterization działa?
- Modele overparametryzowane mają znacznie więcej „rozwiązań” (globalnych minimów), spośród których łatwiej znaleźć te o dobrej generalizacji
- Optymalizacja gradientowa wykazuje implicit bias – preferuje proste rozwiązania nawet w bardzo dużej przestrzeni parametrów
- Zjawisko Double Descent
Double Descent Phenomenon
Klasyczna krzywa U (im więcej parametrów → overfitting) załamuje się przy bardzo dużej liczbie parametrów. Po okresie overfittingu błąd testowy ponownie spada — to właśnie Double Descent. Granica interpolacji (gdy liczba parametrów ≈ liczba próbek) jest najgorszym punktem.
Kluczowe koncepcje
- Implicit Bias – algorytmy optymalizacji (np. Gradient Descent) mają wbudowaną preferencję dla prostszych rozwiązań
- Lottery Ticket Hypothesis – w dużych, overparametryzowanych sieciach istnieją „bilety loteryjne” (podsieci), które same w sobie są bardzo skuteczne
- Neural Scaling Laws – przewidywalne poprawianie się wyników wraz ze skalowaniem parametrów i danych
- Benign Overfitting – overfitting, który nie szkodzi generalizacji
Overparameterization w praktyce (2026)
- Modele językowe (Llama 4, Mistral Large, Grok) mają setki miliardów parametrów
- Im większy model, tym lepsza generalizacja i emergent abilities
- Overparameterization umożliwia efektywne fine-tuning (LoRA, QLoRA)
- Pozwala na kompresję modelu po treningu (pruning, distillation)
Wyzwania
- Wysokie koszty obliczeniowe i pamięciowe
- Trudności w interpretowalności
- Zwiększone zużycie energii
- Ryzyko memorizacji danych treningowych
Powiązane pojęcia
Double Descent • Implicit Bias • Lottery Ticket Hypothesis • Neural Scaling Laws • Benign Overfitting • Model Capacity • Underparameterization