Layer Normalization

Wprowadzenie

Layer Normalization (LayerNorm) to technika normalizacji aktywacji w sieciach neuronowych, wprowadzona w 2016 roku przez Jimmy’ego Lei Ba i współpracowników. W przeciwieństwie do Batch Normalization normalizuje dane wzdłuż wymiaru cech dla każdej próbki niezależnie, co czyni ją szczególnie użyteczną w rekurencyjnych i transformerowych architekturach.

Jak działa Layer Normalization?

Dla każdej próbki i każdej warstwy oblicza średnią i wariancję po wszystkich cechach (neurons), a następnie normalizuje aktywacje:

μ = (1/H) ∑ xi
σ² = (1/H) ∑ (xi − μ)²
y = γ ⊙ ((x − μ) / √(σ² + ε)) + β

Gdzie γ i β to parametry skalowania i przesunięcia (learnable), a H to liczba cech.

LayerNorm vs BatchNorm

  • Batch Normalization – normalizuje po batchu (zależna od rozmiaru batcha)
  • Layer Normalization – normalizuje po cechach każdej próbki niezależnie (nie zależy od batch size)
  • LayerNorm lepiej działa w RNN i Transformerach
  • BatchNorm jest szybszy w CNN przy dużych batchach

Rola w architekturze Transformer

Layer Normalization jest kluczowym elementem Transformerów. Istnieją dwa główne warianty:

  • Post-Norm – normalizacja po sub-layer (oryginalny Transformer)
  • Pre-Norm – normalizacja przed sub-layer (dominuje w nowoczesnych modelach: Llama, Mistral, GPT-NeoX, Grok)

Pre-Norm zapewnia znacznie lepszą stabilność treningu głębokich modeli.

Zalety Layer Normalization

  • Stabilizuje trening głębokich sieci
  • Nie zależy od rozmiaru batcha (idealne dla małych batchy i sekwencyjnych modeli)
  • Przyspiesza zbieżność treningu
  • Łatwa implementacja i niski overhead obliczeniowy

Warianty

  • RMSNorm – uproszczona wersja bez odejmowania średniej (używana w Llama, PaLM, Gemma)
  • DeepNorm
  • Post-LayerNorm vs Pre-LayerNorm

Aktualny status (2026)

Layer Normalization (szczególnie w wariancie Pre-Norm i RMSNorm) jest standardem w prawie wszystkich nowoczesnych dużych modelach językowych i multimodalnych. Bez tej techniki trening modeli o setkach warstw byłby ekstremalnie niestabilny. RMSNorm stał się szczególnie popularny ze względu na niższy koszt obliczeniowy i podobną skuteczność. Layer Normalization pozostaje jednym z kluczowych „tricków inżynieryjnych”, które umożliwiły skalowanie Transformerów do dzisiejszych rozmiarów.