Scaling Laws | Encyklopedia AI

Wprowadzenie

Scaling Laws (prawa skalowania) to empiryczne reguły opisujące, w jaki sposób wydajność dużych modeli językowych (LLM) poprawia się wraz ze zwiększaniem trzech kluczowych zasobów: liczby parametrów modelu, ilości danych treningowych oraz mocy obliczeniowej (compute).

Historia i kluczowe prace

Pojęcie Scaling Laws spopularyzowały dwie przełomowe publikacje:

2020 – Kaplan et al. (OpenAI): „Scaling Laws for Neural Language Models” – pierwsza systematyczna analiza pokazująca przewidywalne, potęgowe zależności.
2022 – Hoffmann et al. (DeepMind): „Training Compute-Optimal Large Language Models” (tzw. Chinchilla Scaling Laws) – udowodniła, że wcześniejsze modele były niedotrenowane względem danych.

Matematyczna postać

Wydajność modelu (mierzoną np. stratą cross-entropy L) można aproksymować wzorem:

L(N, D, C) ≈ E + A·N^-α + B·D^-β + C·C^-γ

Gdzie:

N – liczba parametrów modelu
D – liczba tokenów w zbiorze treningowym
C – całkowita ilość obliczeń (FLOPs)

Najważniejsze wnioski

Większe modele są bardziej „sample-efficient” – uczą się szybciej z mniejszej liczby przykładów.
Optymalny stosunek: modele powinny być trenowane na znacznie większej liczbie tokenów niż wcześniej zakładano (Chinchilla: ~20 tokenów na parametr).
Istnieje wyraźne prawo potęgowe – poprawa jest przewidywalna, ale z malejącymi korzyściami (diminishing returns).
„Compute-optimal” modele (np. Chinchilla) biją na głowę większe, ale niedotrenowane modele (np. GPT-3).

Praktyczne implikacje

Projektowanie modeli – lepiej mieć mniejszy, ale dobrze wyskalowany model niż ogromny i niedotrenowany.
Koszt treningu – prawa skalowania pozwalają przewidywać, ile compute będzie potrzebne do osiągnięcia określonego poziomu wydajności.
Przewidywalność postępu – firmy mogą planować kolejne generacje modeli z dużą dokładnością.
Granice skalowania – przy bardzo dużych skalach pojawiają się nowe zjawiska (emergent abilities) i nowe ograniczenia (dane, energia, hardware).

Aktualny status (2026)

Scaling Laws nadal pozostają jednym z najbardziej fundamentalnych filarów współczesnego AI. Mimo pojawienia się nowych technik (MoE, test-time scaling, synthetic data, reasoning models), podstawowe prawa potęgowe nadal świetnie opisują rzeczywistość. Aktualne dyskusje koncentrują się na „post-training scaling”, „inference-time compute scaling” oraz poszukiwaniu nowych praw skalowania dla multimodalnych i agentowych systemów.