Scaling Laws

Wprowadzenie

Scaling Laws (prawa skalowania) to empiryczne reguły opisujące, w jaki sposób wydajność dużych modeli językowych (LLM) poprawia się wraz ze zwiększaniem trzech kluczowych zasobów: liczby parametrów modelu, ilości danych treningowych oraz mocy obliczeniowej (compute).

Historia i kluczowe prace

Pojęcie Scaling Laws spopularyzowały dwie przełomowe publikacje:

  • 2020 – Kaplan et al. (OpenAI): „Scaling Laws for Neural Language Models” – pierwsza systematyczna analiza pokazująca przewidywalne, potęgowe zależności.
  • 2022 – Hoffmann et al. (DeepMind): „Training Compute-Optimal Large Language Models” (tzw. Chinchilla Scaling Laws) – udowodniła, że wcześniejsze modele były niedotrenowane względem danych.

Matematyczna postać

Wydajność modelu (mierzoną np. stratą cross-entropy L) można aproksymować wzorem:

L(N, D, C) ≈ E + A·N + B·D + C·C

Gdzie:

  • N – liczba parametrów modelu
  • D – liczba tokenów w zbiorze treningowym
  • C – całkowita ilość obliczeń (FLOPs)

Najważniejsze wnioski

  • Większe modele są bardziej „sample-efficient” – uczą się szybciej z mniejszej liczby przykładów.
  • Optymalny stosunek: modele powinny być trenowane na znacznie większej liczbie tokenów niż wcześniej zakładano (Chinchilla: ~20 tokenów na parametr).
  • Istnieje wyraźne prawo potęgowe – poprawa jest przewidywalna, ale z malejącymi korzyściami (diminishing returns).
  • „Compute-optimal” modele (np. Chinchilla) biją na głowę większe, ale niedotrenowane modele (np. GPT-3).

Praktyczne implikacje

  • Projektowanie modeli – lepiej mieć mniejszy, ale dobrze wyskalowany model niż ogromny i niedotrenowany.
  • Koszt treningu – prawa skalowania pozwalają przewidywać, ile compute będzie potrzebne do osiągnięcia określonego poziomu wydajności.
  • Przewidywalność postępu – firmy mogą planować kolejne generacje modeli z dużą dokładnością.
  • Granice skalowania – przy bardzo dużych skalach pojawiają się nowe zjawiska (emergent abilities) i nowe ograniczenia (dane, energia, hardware).

Aktualny status (2026)

Scaling Laws nadal pozostają jednym z najbardziej fundamentalnych filarów współczesnego AI. Mimo pojawienia się nowych technik (MoE, test-time scaling, synthetic data, reasoning models), podstawowe prawa potęgowe nadal świetnie opisują rzeczywistość. Aktualne dyskusje koncentrują się na „post-training scaling”, „inference-time compute scaling” oraz poszukiwaniu nowych praw skalowania dla multimodalnych i agentowych systemów.