Convolutional Neural Network | Encyklopedia AI

Wprowadzenie

Convolutional Neural Network (CNN), czyli sieć konwolucyjna, to rodzaj architektury sieci neuronowej specjalnie zaprojektowany do przetwarzania danych siatkowych, takich jak obrazy. Dzięki operacji konwolucji model potrafi efektywnie wykrywać lokalne wzorce (krawędzie, tekstury, kształty), co czyni go niezwykle skutecznym w zadaniach computer vision.

Jak działa CNN?

Kluczowym elementem jest warstwa konwolucyjna, która przesuwa filtr (kernel) po obrazie i oblicza iloczyn skalarny z lokalnym fragmentem. Dzięki temu sieć:

Wykrywa lokalne cechy niezależnie od ich położenia (translation invariance)
Ma znacznie mniej parametrów niż gęste warstwy (weight sharing)
Automatycznie uczy się hierarchicznych cech: od prostych krawędzi po złożone obiekty

Typowa architektura CNN

Warstwy konwolucyjne + aktywacja (ReLU)
Pooling (Max Pooling / Average Pooling) – redukcja wymiarowości i zwiększenie odporności na przesunięcia
Fully Connected Layers – na końcu do klasyfikacji
Batch Normalization + Dropout – popularne techniki regularizacji

Przełomowe modele

LeNet-5 (1998) – pierwsza praktyczna CNN
AlexNet (2012) – zwycięzca ImageNet, początek rewolucji deep learning
VGG, GoogLeNet, ResNet – coraz głębsze sieci
EfficientNet, ConvNeXt – nowoczesne, efektywne architektury

Zalety Convolutional Neural Networks

Znacznie lepsza wydajność na danych obrazowych niż klasyczne MLP
Automatyczne uczenie cech (feature learning)
Możliwość transfer learningu (wykorzystanie pre-trenowanych modeli)
Skalowalność i wysoka dokładność

Ograniczenia

Wysokie wymagania obliczeniowe (szczególnie trening)
Słaba generalizacja na dane nie-siatkowe bez modyfikacji
Duża liczba parametrów w głębokich modelach

Zastosowania

Rozpoznawanie obiektów i twarzy
Analiza obrazów medycznych (RTG, MRI, histopatologia)
Samochody autonomiczne
Nadzór wizyjny i detekcja anomalii
Generowanie obrazów (w połączeniu z GAN i Diffusion)

Aktualny status (2026)

Mimo dominacji architektury Transformer (Vision Transformer), klasyczne CNN-y i ich hybrydy nadal są szeroko stosowane ze względu na wysoką efektywność i mniejsze wymagania obliczeniowe. Nowoczesne modele (ConvNeXt, EfficientNetV2, MobileNetV4) łączą zalety konwolucji z mechanizmami uwagi, oferując znakomitą równowagę między dokładnością a szybkością. CNN-y pozostają podstawą w aplikacjach embedded i real-time.

Powiązane pojęcia

Vision Transformer→ResNetComputer Vision→PoolingFeature ExtractionImage RecognitionDeep Learning→