Activation Function | Encyklopedia AI

Wprowadzenie

Activation Function (Funkcja Aktywacji) to matematyczna funkcja stosowana na wyjściu każdego neuronu w sieci neuronowej. Jej głównym zadaniem jest wprowadzenie nieliniowości do modelu – bez niej sieć neuronowa byłaby w stanie modelować jedynie liniowe zależności.

Dlaczego nieliniowość jest ważna?

Sieci bez funkcji aktywacji (lub z liniową aktywacją) zachowują się jak jeden wielki model liniowy – nawet jeśli mają setki warstw. Funkcje aktywacji pozwalają sieciom uczyć się złożonych, nieliniowych wzorców, co jest podstawą sukcesu deep learning.

Najpopularniejsze funkcje aktywacji

Sigmoid – klasyczna funkcja (0,1), obecnie rzadko używana ze względu na vanishing gradient
Tanh – podobna do sigmoid, ale wyjście w zakresie (-1, 1)
ReLU (Rectified Linear Unit) – najpopularniejsza: f(x) = max(0, x). Prosta i bardzo efektywna.
Leaky ReLU / Parametric ReLU – rozwiązuje problem „martwych neuronów”
Swish – f(x) = x · sigmoid(x) – opracowana przez Google
GELU (Gaussian Error Linear Unit) – używana w Transformerach i modelach GPT
SiLU / Mish – nowoczesne, gładkie warianty ReLU

Porównanie funkcji aktywacji

ReLU i jej warianty dominują w praktyce ze względu na prostotę obliczeniową i dobre właściwości gradientu. W modelach Transformer (np. GPT, BERT, Grok) najczęściej stosuje się GELU.

Problemy związane z funkcjami aktywacji

Vanishing Gradient (zanikanie gradientu)
Exploding Gradient (eksplozja gradientu)
Dying ReLU – neurony „umierają” i przestają się uczyć
Niecentrowane aktywacje spowalniające trening

Aktualny stan (2026)

Większość nowoczesnych architektur (Transformery, Diffusion Models, State Space Models) nadal korzysta z ReLU/GELU/SwiGLU. Trwają badania nad nowymi funkcjami aktywacji (np. dynamicznymi, adaptacyjnymi lub inspirowanymi biologią).

Powiązane pojęcia

Cost Function→Energy Function→Fitness Function→Function Approximation RL→Function Calling→Hash Function→Kidney Function AI→Vanishing Gradient→Cryptographic Hash Function→First Class Function→