Wprowadzenie
Weight Decay (zwany też L2 Regularization) to jedna z najprostszych, najstarszych i jednocześnie najskuteczniejszych technik regularyzacji w uczeniu maszynowym.
Jak działa Weight Decay?
Do funkcji straty dodawana jest dodatkowa kara proporcjonalna do kwadratu wag modelu:
Loss_total = Loss_original + (λ / 2) * Σ w_i²Im większa waga, tym większa kara. Dzięki temu model jest zachęcany do używania mniejszych wag.
Intuicja
Duże wagi sprawiają, że model jest bardzo wrażliwy na małe zmiany w danych wejściowych (łatwo wpada w overfitting). Weight Decay „ściska” wagi w stronę zera, dzięki czemu model staje się prostszy i bardziej ogólny.
Weight Decay a L2 Regularization
W praktyce są to dwa różne nazwy tej samej techniki. Weight Decay jest implementacją L2 Regularization bezpośrednio na poziomie optymalizatora.
Zalety stosowania Weight Decay
- Zmniejsza ryzyko overfittingu
- Poprawia generalizację modelu
- Działa bardzo dobrze w połączeniu z AdamW
- Jest bardzo tani obliczeniowo
- Łatwy do dostrojenia (hiperparametr λ)
Adam vs AdamW
Klasyczny Adam stosuje Weight Decay niewłaściwie (decoupled weight decay).AdamW oddziela Weight Decay od adaptacyjnego learning rate, co daje znacznie lepsze wyniki.
Aktualny status (2026)
Weight Decay (szczególnie w formie AdamW) jest standardem w trenowaniu prawie wszystkich dużych modeli językowych, modeli wizyjnych i dyfuzyjnych. Prawie żaden nowoczesny model nie jest trenowany bez tej techniki.