Layer Normalization | Encyklopedia AI

Wprowadzenie

Layer Normalization (LayerNorm) to technika normalizacji aktywacji w sieciach neuronowych, wprowadzona w 2016 roku przez Jimmy’ego Lei Ba i współpracowników. W przeciwieństwie do Batch Normalization normalizuje dane wzdłuż wymiaru cech dla każdej próbki niezależnie, co czyni ją szczególnie użyteczną w rekurencyjnych i transformerowych architekturach.

Jak działa Layer Normalization?

Dla każdej próbki i każdej warstwy oblicza średnią i wariancję po wszystkich cechach (neurons), a następnie normalizuje aktywacje:

μ = (1/H) ∑ x_i
σ² = (1/H) ∑ (x_i − μ)²
y = γ ⊙ ((x − μ) / √(σ² + ε)) + β

Gdzie γ i β to parametry skalowania i przesunięcia (learnable), a H to liczba cech.

LayerNorm vs BatchNorm

Batch Normalization – normalizuje po batchu (zależna od rozmiaru batcha)
Layer Normalization – normalizuje po cechach każdej próbki niezależnie (nie zależy od batch size)
LayerNorm lepiej działa w RNN i Transformerach
BatchNorm jest szybszy w CNN przy dużych batchach

Rola w architekturze Transformer

Layer Normalization jest kluczowym elementem Transformerów. Istnieją dwa główne warianty:

Post-Norm – normalizacja po sub-layer (oryginalny Transformer)
Pre-Norm – normalizacja przed sub-layer (dominuje w nowoczesnych modelach: Llama, Mistral, GPT-NeoX, Grok)

Pre-Norm zapewnia znacznie lepszą stabilność treningu głębokich modeli.

Zalety Layer Normalization

Stabilizuje trening głębokich sieci
Nie zależy od rozmiaru batcha (idealne dla małych batchy i sekwencyjnych modeli)
Przyspiesza zbieżność treningu
Łatwa implementacja i niski overhead obliczeniowy

Warianty

RMSNorm – uproszczona wersja bez odejmowania średniej (używana w Llama, PaLM, Gemma)
DeepNorm
Post-LayerNorm vs Pre-LayerNorm

Aktualny status (2026)

Layer Normalization (szczególnie w wariancie Pre-Norm i RMSNorm) jest standardem w prawie wszystkich nowoczesnych dużych modelach językowych i multimodalnych. Bez tej techniki trening modeli o setkach warstw byłby ekstremalnie niestabilny. RMSNorm stał się szczególnie popularny ze względu na niższy koszt obliczeniowy i podobną skuteczność. Layer Normalization pozostaje jednym z kluczowych „tricków inżynieryjnych”, które umożliwiły skalowanie Transformerów do dzisiejszych rozmiarów.