Residual Connections

Wprowadzenie

Residual Connections (połączenia rezydualne), znane również jako skip connections, to jedna z najważniejszych innowacji w głębokim uczeniu. Zostały wprowadzone w 2015 roku w architekturze ResNet (Residual Network) przez Microsoft Research i pozwoliły na trenowanie sieci mających setki, a nawet tysiące warstw.

Problem, który rozwiązują

W bardzo głębokich sieciach neuronowych podczas treningu występuje zjawisko vanishing gradient (zanikanie gradientu) lub exploding gradient. Gradienty stają się ekstremalnie małe lub duże, co uniemożliwia efektywne uczenie wcześniejszych warstw.

Jak działają Residual Connections?

Zamiast uczyć warstwę bezpośrednio mapować wejście na wyjście (H(x)), uczymy ją uczyć się residuum (różnicy):

y = F(x) + x

Gdzie x to wejście, a F(x) to funkcja realizowana przez warstwę (zwykle Conv + BN + ReLU). Połączenie „+ x” nazywane jest shortcut connection lub identity mapping.

Residual Block

Podstawowy blok ResNet składa się z dwóch lub trzech warstw konwolucyjnych z połączeniem rezydualnym. Istnieją wersje:

  • Basic Block (dla mniejszych ResNet)
  • Bottleneck Block (dla ResNet-50/101/152 – bardziej efektywny obliczeniowo)

Zalety Residual Connections

  • Umożliwiają trenowanie ekstremalnie głębokich sieci (nawet 1000+ warstw)
  • Łatwiejsze propagowanie gradientu (bezpośrednia ścieżka)
  • Lepsza optymalizacja i szybsza zbieżność treningu
  • Zmniejszają ryzyko degradacji wydajności wraz z głębokością
  • Stają się standardem w nowoczesnych architekturach

Zastosowanie poza CNN

  • Transformery – każda warstwa Attention + Feed-Forward ma residual connection + Layer Normalization
  • Modele językowe (GPT, Llama, Mistral, Gemma)
  • Modele wizyjne (ViT, Swin Transformer)
  • Modele generatywne (Stable Diffusion, Diffusion Transformers)

Aktualny status (2026)

Residual Connections są obecnie standardowym elementem prawie każdej nowoczesnej architektury głębokich sieci neuronowych. Bez nich niemożliwe byłoby skuteczne trenowanie modeli o setkach miliardów parametrów. Nowoczesne warianty łączą je z Layer Normalization, Pre-Norm / Post-Norm, Stochastic Depth czy Scaled Residual Connections, co jeszcze bardziej poprawia stabilność treningu.

Technika, która w 2015 roku wygrała ImageNet z ogromną przewagą, pozostaje fundamentem współczesnego deep learningu.