Normalization Techniques – Batch Norm, Layer Norm, RMSNorm i inne

Wprowadzenie

Normalization Techniques (Techniki Normalizacji) to metody skalowania aktywacji w sieciach neuronowych, które znacząco przyspieszają i stabilizują proces treningu. Dzięki normalizacji modele mogą używać wyższych learning rate’ów, lepiej radzą sobie z vanishing/exploding gradients i generalizują lepiej.

Główne techniki normalizacji

Batch Normalization (BN) – normalizuje po batchu (średnia i wariancja dla każdej cechy w mini-batchu). Najpopularniejsza w CNN.
Layer Normalization (LN) – normalizuje po warstwie (dla każdej próbki niezależnie). Standard w Transformerach.
RMSNorm – Root Mean Square Normalization. Uproszczona wersja Layer Norm (tylko skalowanie, bez centrowania). Bardzo popularna w nowoczesnych LLM (Llama, Mistral, Gemma).
Group Normalization (GN) – normalizuje wewnątrz grup kanałów. Dobrze działa przy małych batchach.
Instance Normalization (IN) – normalizuje każdy kanał niezależnie (używana w stylizacji obrazów).
Weight Normalization – normalizuje wagi zamiast aktywacji.

Porównanie technik

Batch Norm – zależy od batch size, słabo działa przy małych batchach i w RNN/Transformerach
Layer Norm – nie zależy od batch size, stabilna w sekwencyjnych modelach
RMSNorm – szybsza i prostsza niż Layer Norm, prawie taka sama skuteczność
Group Norm – dobry kompromis między BN a LN przy małych batchach

Zalety stosowania normalizacji

Znacznie szybsza zbieżność treningu
Możliwość stosowania wyższych wartości learning rate
Lepsza generalizacja i stabilność treningu
Zmniejszenie problemu vanishing/exploding gradient
Regularizacja (szczególnie Batch Norm)

Zastosowanie w nowoczesnych modelach (2026)

Transformery / LLM → LayerNorm lub RMSNorm
CNN / Vision Models → BatchNorm lub GroupNorm
Modele dyfuzyjne → GroupNorm lub RMSNorm
Efektywne modele edge → RMSNorm lub LayerNorm

Najlepsze praktyki

W Transformerach i LLM preferuj RMSNorm (szybszy i prostszy)
Przy małych batchach unikaj Batch Normalization
Umieszczaj normalizację przed aktywacją (pre-norm) lub po (post-norm) – w LLM dominuje pre-norm
Łącz normalizację z odpowiednimi inicjalizacjami wag (np. Kaiming, Xavier)
W treningu rozproszonym rozważ SyncBatchNorm

Powiązane pojęcia

Batch Normalization→Group Normalization→Layer Normalization→Color Normalization→Data Normalization Rules→Deep Adaptive Input Normalization→Instance Based Learning→Weight Sharing Techniques→Cyclic Learning Rate→Deep Active Learning→