Wprowadzenie
Layer Normalization (LayerNorm) to technika normalizacji aktywacji w sieciach neuronowych, wprowadzona w 2016 roku przez Jimmy’ego Lei Ba i współpracowników. W przeciwieństwie do Batch Normalization normalizuje dane wzdłuż wymiaru cech dla każdej próbki niezależnie, co czyni ją szczególnie użyteczną w rekurencyjnych i transformerowych architekturach.
Jak działa Layer Normalization?
Dla każdej próbki i każdej warstwy oblicza średnią i wariancję po wszystkich cechach (neurons), a następnie normalizuje aktywacje:
μ = (1/H) ∑ xi
σ² = (1/H) ∑ (xi − μ)²
y = γ ⊙ ((x − μ) / √(σ² + ε)) + β
Gdzie γ i β to parametry skalowania i przesunięcia (learnable), a H to liczba cech.
LayerNorm vs BatchNorm
- Batch Normalization – normalizuje po batchu (zależna od rozmiaru batcha)
- Layer Normalization – normalizuje po cechach każdej próbki niezależnie (nie zależy od batch size)
- LayerNorm lepiej działa w RNN i Transformerach
- BatchNorm jest szybszy w CNN przy dużych batchach
Rola w architekturze Transformer
Layer Normalization jest kluczowym elementem Transformerów. Istnieją dwa główne warianty:
- Post-Norm – normalizacja po sub-layer (oryginalny Transformer)
- Pre-Norm – normalizacja przed sub-layer (dominuje w nowoczesnych modelach: Llama, Mistral, GPT-NeoX, Grok)
Pre-Norm zapewnia znacznie lepszą stabilność treningu głębokich modeli.
Zalety Layer Normalization
- Stabilizuje trening głębokich sieci
- Nie zależy od rozmiaru batcha (idealne dla małych batchy i sekwencyjnych modeli)
- Przyspiesza zbieżność treningu
- Łatwa implementacja i niski overhead obliczeniowy
Warianty
- RMSNorm – uproszczona wersja bez odejmowania średniej (używana w Llama, PaLM, Gemma)
- DeepNorm
- Post-LayerNorm vs Pre-LayerNorm
Aktualny status (2026)
Layer Normalization (szczególnie w wariancie Pre-Norm i RMSNorm) jest standardem w prawie wszystkich nowoczesnych dużych modelach językowych i multimodalnych. Bez tej techniki trening modeli o setkach warstw byłby ekstremalnie niestabilny. RMSNorm stał się szczególnie popularny ze względu na niższy koszt obliczeniowy i podobną skuteczność. Layer Normalization pozostaje jednym z kluczowych „tricków inżynieryjnych”, które umożliwiły skalowanie Transformerów do dzisiejszych rozmiarów.