Wprowadzenie
Normalization Techniques (Techniki Normalizacji) to metody skalowania aktywacji w sieciach neuronowych, które znacząco przyspieszają i stabilizują proces treningu. Dzięki normalizacji modele mogą używać wyższych learning rate’ów, lepiej radzą sobie z vanishing/exploding gradients i generalizują lepiej.
Główne techniki normalizacji
- Batch Normalization (BN) – normalizuje po batchu (średnia i wariancja dla każdej cechy w mini-batchu). Najpopularniejsza w CNN.
- Layer Normalization (LN) – normalizuje po warstwie (dla każdej próbki niezależnie). Standard w Transformerach.
- RMSNorm – Root Mean Square Normalization. Uproszczona wersja Layer Norm (tylko skalowanie, bez centrowania). Bardzo popularna w nowoczesnych LLM (Llama, Mistral, Gemma).
- Group Normalization (GN) – normalizuje wewnątrz grup kanałów. Dobrze działa przy małych batchach.
- Instance Normalization (IN) – normalizuje każdy kanał niezależnie (używana w stylizacji obrazów).
- Weight Normalization – normalizuje wagi zamiast aktywacji.
Porównanie technik
- Batch Norm – zależy od batch size, słabo działa przy małych batchach i w RNN/Transformerach
- Layer Norm – nie zależy od batch size, stabilna w sekwencyjnych modelach
- RMSNorm – szybsza i prostsza niż Layer Norm, prawie taka sama skuteczność
- Group Norm – dobry kompromis między BN a LN przy małych batchach
Zalety stosowania normalizacji
- Znacznie szybsza zbieżność treningu
- Możliwość stosowania wyższych wartości learning rate
- Lepsza generalizacja i stabilność treningu
- Zmniejszenie problemu vanishing/exploding gradient
- Regularizacja (szczególnie Batch Norm)
Zastosowanie w nowoczesnych modelach (2026)
- Transformery / LLM → LayerNorm lub RMSNorm
- CNN / Vision Models → BatchNorm lub GroupNorm
- Modele dyfuzyjne → GroupNorm lub RMSNorm
- Efektywne modele edge → RMSNorm lub LayerNorm
Najlepsze praktyki
- W Transformerach i LLM preferuj RMSNorm (szybszy i prostszy)
- Przy małych batchach unikaj Batch Normalization
- Umieszczaj normalizację przed aktywacją (pre-norm) lub po (post-norm) – w LLM dominuje pre-norm
- Łącz normalizację z odpowiednimi inicjalizacjami wag (np. Kaiming, Xavier)
- W treningu rozproszonym rozważ SyncBatchNorm
Powiązane pojęcia
Batch Normalization • Layer Normalization • RMSNorm • Group Normalization • Pre-Norm • Post-Norm • Weight Standardization • Gradient Stability • Deep Learning Optimization