Residual Networks (ResNet)

Wprowadzenie

Residual Networks (ResNet) to jedna z najważniejszych architektur w historii głębokiego uczenia. Wprowadzona w 2015 roku przez Kaiminga He i zespół Microsoft Research, rozwiązała fundamentalny problem treningu bardzo głębokich sieci neuronowych – vanishing/exploding gradients.

Główna idea – Residual Connections

Zamiast uczyć sieć bezpośrednio mapować wejście na wyjście (H(x)), ResNet uczy sieć mapować różnicę (residual):

y = F(x) + x

Dzięki temu nawet bardzo głębokie sieci (50, 101, 152 warstwy) mogą być trenowane skutecznie, ponieważ gradient może płynąć bezpośrednio przez „skip connection”.

Ewolucja ResNet do 2026

  • ResNet-50 / ResNet-101 – klasyki, nadal często używane jako backbone
  • ResNeXt – wprowadzenie grouped convolutions
  • ResNet-RS – zoptymalizowana wersja pod kątem skalowalności
  • ConvNeXt – „nowoczesny ResNet” – połączenie idei ResNet z architekturą Transformerów
  • ResNet w modelach multimodalnych – nadal używany jako vision encoder (np. w LLaVA, CLIP)

Dlaczego ResNet jest nadal ważny?

  • Residual Connections są podstawą prawie wszystkich nowoczesnych architektur (w tym Transformerów – LayerNorm + Residual)
  • Stabilność treningu bardzo głębokich modeli
  • Doskonały kompromis między wydajnością a dokładnością
  • Świetny backbone dla zadań detekcji obiektów, segmentacji i klasyfikacji
  • ConvNeXt V2 – aktualny state-of-the-art wśród czysto konwolucyjnych modeli

Zalety Residual Networks

  • Możliwość budowania sieci o setkach warstw
  • Lepsza propagacja gradientu
  • Łatwiejsza optymalizacja
  • Wysoka wydajność przy stosunkowo niskiej złożoności

Najlepsze praktyki w 2026

  • Używaj Pre-Norm lub Post-Norm (w ConvNeXt dominuje Pre-Norm)
  • Łącz z nowoczesnymi technikami: LayerScale, Stochastic Depth
  • Przy transfer learningu – ResNet-50 lub ConvNeXt nadal są bardzo dobrym wyborem
  • W modelach multimodalnych – ResNet lub ConvNeXt jako vision encoder

Powiązane pojęcia

Skip Connections • ConvNeXt • Vision Transformer (ViT) • Deep Residual Learning • Stochastic Depth • Layer Normalization • Backbone Architecture