Normalization Techniques

Wprowadzenie

Normalization Techniques (Techniki Normalizacji) to metody skalowania aktywacji w sieciach neuronowych, które znacząco przyspieszają i stabilizują proces treningu. Dzięki normalizacji modele mogą używać wyższych learning rate’ów, lepiej radzą sobie z vanishing/exploding gradients i generalizują lepiej.

Główne techniki normalizacji

  • Batch Normalization (BN) – normalizuje po batchu (średnia i wariancja dla każdej cechy w mini-batchu). Najpopularniejsza w CNN.
  • Layer Normalization (LN) – normalizuje po warstwie (dla każdej próbki niezależnie). Standard w Transformerach.
  • RMSNorm – Root Mean Square Normalization. Uproszczona wersja Layer Norm (tylko skalowanie, bez centrowania). Bardzo popularna w nowoczesnych LLM (Llama, Mistral, Gemma).
  • Group Normalization (GN) – normalizuje wewnątrz grup kanałów. Dobrze działa przy małych batchach.
  • Instance Normalization (IN) – normalizuje każdy kanał niezależnie (używana w stylizacji obrazów).
  • Weight Normalization – normalizuje wagi zamiast aktywacji.

Porównanie technik

  • Batch Norm – zależy od batch size, słabo działa przy małych batchach i w RNN/Transformerach
  • Layer Norm – nie zależy od batch size, stabilna w sekwencyjnych modelach
  • RMSNorm – szybsza i prostsza niż Layer Norm, prawie taka sama skuteczność
  • Group Norm – dobry kompromis między BN a LN przy małych batchach

Zalety stosowania normalizacji

  • Znacznie szybsza zbieżność treningu
  • Możliwość stosowania wyższych wartości learning rate
  • Lepsza generalizacja i stabilność treningu
  • Zmniejszenie problemu vanishing/exploding gradient
  • Regularizacja (szczególnie Batch Norm)

Zastosowanie w nowoczesnych modelach (2026)

  • Transformery / LLM → LayerNorm lub RMSNorm
  • CNN / Vision Models → BatchNorm lub GroupNorm
  • Modele dyfuzyjne → GroupNorm lub RMSNorm
  • Efektywne modele edge → RMSNorm lub LayerNorm

Najlepsze praktyki

  • W Transformerach i LLM preferuj RMSNorm (szybszy i prostszy)
  • Przy małych batchach unikaj Batch Normalization
  • Umieszczaj normalizację przed aktywacją (pre-norm) lub po (post-norm) – w LLM dominuje pre-norm
  • Łącz normalizację z odpowiednimi inicjalizacjami wag (np. Kaiming, Xavier)
  • W treningu rozproszonym rozważ SyncBatchNorm

Powiązane pojęcia

Batch Normalization • Layer Normalization • RMSNorm • Group Normalization • Pre-Norm • Post-Norm • Weight Standardization • Gradient Stability • Deep Learning Optimization