Overparameterization | Przeparametryzacja w Deep Learning

Wprowadzenie

Overparameterization (przeparametryzacja) to sytuacja, w której liczba parametrów modelu jest znacznie większa niż liczba przykładów treningowych. Zgodnie z klasyczną teorią uczenia maszynowego taki model powinien silnie overfitować. W praktyce jednak głębokie sieci neuronowe z miliardami parametrów osiągają doskonałą generalizację.

Dlaczego overparameterization działa?

Modele overparametryzowane mają znacznie więcej „rozwiązań” (globalnych minimów), spośród których łatwiej znaleźć te o dobrej generalizacji
Optymalizacja gradientowa wykazuje implicit bias – preferuje proste rozwiązania nawet w bardzo dużej przestrzeni parametrów
Zjawisko Double Descent

Double Descent Phenomenon

Klasyczna krzywa U (im więcej parametrów → overfitting) załamuje się przy bardzo dużej liczbie parametrów. Po okresie overfittingu błąd testowy ponownie spada — to właśnie Double Descent. Granica interpolacji (gdy liczba parametrów ≈ liczba próbek) jest najgorszym punktem.

Kluczowe koncepcje

Implicit Bias – algorytmy optymalizacji (np. Gradient Descent) mają wbudowaną preferencję dla prostszych rozwiązań
Lottery Ticket Hypothesis – w dużych, overparametryzowanych sieciach istnieją „bilety loteryjne” (podsieci), które same w sobie są bardzo skuteczne
Neural Scaling Laws – przewidywalne poprawianie się wyników wraz ze skalowaniem parametrów i danych
Benign Overfitting – overfitting, który nie szkodzi generalizacji

Overparameterization w praktyce (2026)

Modele językowe (Llama 4, Mistral Large, Grok) mają setki miliardów parametrów
Im większy model, tym lepsza generalizacja i emergent abilities
Overparameterization umożliwia efektywne fine-tuning (LoRA, QLoRA)
Pozwala na kompresję modelu po treningu (pruning, distillation)

Wyzwania

Wysokie koszty obliczeniowe i pamięciowe
Trudności w interpretowalności
Zwiększone zużycie energii
Ryzyko memorizacji danych treningowych

Powiązane pojęcia

Deep Learning Theory→Double Machine Learning→Sieci Neuronowe→Deep Active Learning→Deep Audio Learning→Deep Continual Learning→Deep Contrastive Learning→Evidential Deep Learning→Implicit Bias→