Overparameterization

Wprowadzenie

Overparameterization (przeparametryzacja) to sytuacja, w której liczba parametrów modelu jest znacznie większa niż liczba przykładów treningowych. Zgodnie z klasyczną teorią uczenia maszynowego taki model powinien silnie overfitować. W praktyce jednak głębokie sieci neuronowe z miliardami parametrów osiągają doskonałą generalizację.

Dlaczego overparameterization działa?

  • Modele overparametryzowane mają znacznie więcej „rozwiązań” (globalnych minimów), spośród których łatwiej znaleźć te o dobrej generalizacji
  • Optymalizacja gradientowa wykazuje implicit bias – preferuje proste rozwiązania nawet w bardzo dużej przestrzeni parametrów
  • Zjawisko Double Descent

Double Descent Phenomenon

Klasyczna krzywa U (im więcej parametrów → overfitting) załamuje się przy bardzo dużej liczbie parametrów. Po okresie overfittingu błąd testowy ponownie spada — to właśnie Double Descent. Granica interpolacji (gdy liczba parametrów ≈ liczba próbek) jest najgorszym punktem.

Kluczowe koncepcje

  • Implicit Bias – algorytmy optymalizacji (np. Gradient Descent) mają wbudowaną preferencję dla prostszych rozwiązań
  • Lottery Ticket Hypothesis – w dużych, overparametryzowanych sieciach istnieją „bilety loteryjne” (podsieci), które same w sobie są bardzo skuteczne
  • Neural Scaling Laws – przewidywalne poprawianie się wyników wraz ze skalowaniem parametrów i danych
  • Benign Overfitting – overfitting, który nie szkodzi generalizacji

Overparameterization w praktyce (2026)

  • Modele językowe (Llama 4, Mistral Large, Grok) mają setki miliardów parametrów
  • Im większy model, tym lepsza generalizacja i emergent abilities
  • Overparameterization umożliwia efektywne fine-tuning (LoRA, QLoRA)
  • Pozwala na kompresję modelu po treningu (pruning, distillation)

Wyzwania

  • Wysokie koszty obliczeniowe i pamięciowe
  • Trudności w interpretowalności
  • Zwiększone zużycie energii
  • Ryzyko memorizacji danych treningowych

Powiązane pojęcia

Double Descent • Implicit Bias • Lottery Ticket Hypothesis • Neural Scaling Laws • Benign Overfitting • Model Capacity • Underparameterization