Weight Decay | Encyklopedia AI

Wprowadzenie

Weight Decay (zwany też L2 Regularization) to jedna z najprostszych, najstarszych i jednocześnie najskuteczniejszych technik regularyzacji w uczeniu maszynowym.

Jak działa Weight Decay?

Do funkcji straty dodawana jest dodatkowa kara proporcjonalna do kwadratu wag modelu:

Loss_total = Loss_original + (λ / 2) * Σ w_i²

Im większa waga, tym większa kara. Dzięki temu model jest zachęcany do używania mniejszych wag.

Intuicja

Duże wagi sprawiają, że model jest bardzo wrażliwy na małe zmiany w danych wejściowych (łatwo wpada w overfitting). Weight Decay „ściska” wagi w stronę zera, dzięki czemu model staje się prostszy i bardziej ogólny.

Weight Decay a L2 Regularization

W praktyce są to dwa różne nazwy tej samej techniki. Weight Decay jest implementacją L2 Regularization bezpośrednio na poziomie optymalizatora.

Zalety stosowania Weight Decay

Zmniejsza ryzyko overfittingu
Poprawia generalizację modelu
Działa bardzo dobrze w połączeniu z AdamW
Jest bardzo tani obliczeniowo
Łatwy do dostrojenia (hiperparametr λ)

Adam vs AdamW

Klasyczny Adam stosuje Weight Decay niewłaściwie (decoupled weight decay).AdamW oddziela Weight Decay od adaptacyjnego learning rate, co daje znacznie lepsze wyniki.

Aktualny status (2026)

Weight Decay (szczególnie w formie AdamW) jest standardem w trenowaniu prawie wszystkich dużych modeli językowych, modeli wizyjnych i dyfuzyjnych. Prawie żaden nowoczesny model nie jest trenowany bez tej techniki.