Wprowadzenie
Scaling Laws (prawa skalowania) to empiryczne reguły opisujące, w jaki sposób wydajność dużych modeli językowych (LLM) poprawia się wraz ze zwiększaniem trzech kluczowych zasobów: liczby parametrów modelu, ilości danych treningowych oraz mocy obliczeniowej (compute).
Historia i kluczowe prace
Pojęcie Scaling Laws spopularyzowały dwie przełomowe publikacje:
- 2020 – Kaplan et al. (OpenAI): „Scaling Laws for Neural Language Models” – pierwsza systematyczna analiza pokazująca przewidywalne, potęgowe zależności.
- 2022 – Hoffmann et al. (DeepMind): „Training Compute-Optimal Large Language Models” (tzw. Chinchilla Scaling Laws) – udowodniła, że wcześniejsze modele były niedotrenowane względem danych.
Matematyczna postać
Wydajność modelu (mierzoną np. stratą cross-entropy L) można aproksymować wzorem:
L(N, D, C) ≈ E + A·N-α + B·D-β + C·C-γ
Gdzie:
- N – liczba parametrów modelu
- D – liczba tokenów w zbiorze treningowym
- C – całkowita ilość obliczeń (FLOPs)
Najważniejsze wnioski
- Większe modele są bardziej „sample-efficient” – uczą się szybciej z mniejszej liczby przykładów.
- Optymalny stosunek: modele powinny być trenowane na znacznie większej liczbie tokenów niż wcześniej zakładano (Chinchilla: ~20 tokenów na parametr).
- Istnieje wyraźne prawo potęgowe – poprawa jest przewidywalna, ale z malejącymi korzyściami (diminishing returns).
- „Compute-optimal” modele (np. Chinchilla) biją na głowę większe, ale niedotrenowane modele (np. GPT-3).
Praktyczne implikacje
- Projektowanie modeli – lepiej mieć mniejszy, ale dobrze wyskalowany model niż ogromny i niedotrenowany.
- Koszt treningu – prawa skalowania pozwalają przewidywać, ile compute będzie potrzebne do osiągnięcia określonego poziomu wydajności.
- Przewidywalność postępu – firmy mogą planować kolejne generacje modeli z dużą dokładnością.
- Granice skalowania – przy bardzo dużych skalach pojawiają się nowe zjawiska (emergent abilities) i nowe ograniczenia (dane, energia, hardware).
Aktualny status (2026)
Scaling Laws nadal pozostają jednym z najbardziej fundamentalnych filarów współczesnego AI. Mimo pojawienia się nowych technik (MoE, test-time scaling, synthetic data, reasoning models), podstawowe prawa potęgowe nadal świetnie opisują rzeczywistość. Aktualne dyskusje koncentrują się na „post-training scaling”, „inference-time compute scaling” oraz poszukiwaniu nowych praw skalowania dla multimodalnych i agentowych systemów.