Activation Function

Wprowadzenie

Activation Function (Funkcja Aktywacji) to matematyczna funkcja stosowana na wyjściu każdego neuronu w sieci neuronowej. Jej głównym zadaniem jest wprowadzenie nieliniowości do modelu – bez niej sieć neuronowa byłaby w stanie modelować jedynie liniowe zależności.

Dlaczego nieliniowość jest ważna?

Sieci bez funkcji aktywacji (lub z liniową aktywacją) zachowują się jak jeden wielki model liniowy – nawet jeśli mają setki warstw. Funkcje aktywacji pozwalają sieciom uczyć się złożonych, nieliniowych wzorców, co jest podstawą sukcesu deep learning.

Najpopularniejsze funkcje aktywacji

  • Sigmoid – klasyczna funkcja (0,1), obecnie rzadko używana ze względu na vanishing gradient
  • Tanh – podobna do sigmoid, ale wyjście w zakresie (-1, 1)
  • ReLU (Rectified Linear Unit) – najpopularniejsza: f(x) = max(0, x). Prosta i bardzo efektywna.
  • Leaky ReLU / Parametric ReLU – rozwiązuje problem „martwych neuronów”
  • Swish – f(x) = x · sigmoid(x) – opracowana przez Google
  • GELU (Gaussian Error Linear Unit) – używana w Transformerach i modelach GPT
  • SiLU / Mish – nowoczesne, gładkie warianty ReLU

Porównanie funkcji aktywacji

ReLU i jej warianty dominują w praktyce ze względu na prostotę obliczeniową i dobre właściwości gradientu. W modelach Transformer (np. GPT, BERT, Grok) najczęściej stosuje się GELU.

Problemy związane z funkcjami aktywacji

  • Vanishing Gradient (zanikanie gradientu)
  • Exploding Gradient (eksplozja gradientu)
  • Dying ReLU – neurony „umierają” i przestają się uczyć
  • Niecentrowane aktywacje spowalniające trening

Aktualny stan (2026)

Większość nowoczesnych architektur (Transformery, Diffusion Models, State Space Models) nadal korzysta z ReLU/GELU/SwiGLU. Trwają badania nad nowymi funkcjami aktywacji (np. dynamicznymi, adaptacyjnymi lub inspirowanymi biologią).

Powiązane pojęcia

Neural Network • Backpropagation • Gradient Descent • ReLU • GELU • SwiGLU • Vanishing Gradient Problem • Deep Learning