Wprowadzenie
Xception (Extreme Inception) to architektura sieci neuronowej wprowadzona przez Google w 2017 roku. Jest ewolucją popularnej rodziny modeli Inception, ale zastępuje standardowe konwolucje bardziej efektywnym mechanizmem **Depthwise Separable Convolution**.
Główna innowacja – Depthwise Separable Convolution
Zamiast klasycznej konwolucji (która jednocześnie filtruje i łączy kanały), Xception rozdziela ten proces na dwa kroki:
- Depthwise Convolution – filtruje każdy kanał osobno
- Pointwise Convolution (1×1) – łączy kanały
Xception vs Inception
- Inception używa wielu rozmiarów filtrów równolegle
- Xception zakłada, że mapy cech są w dużej mierze niezależne (separowalne)
- Xception jest zarówno dokładniejszy, jak i bardziej efektywny obliczeniowo
Zalety Xception
- Lepsza dokładność przy mniejszej liczbie parametrów
- Znacznie mniejsze zużycie obliczeń (FLOPs)
- Lepsza generalizacja
- Łatwość transfer learningu
Wyniki
Na zbiorze ImageNet Xception osiągnął lepsze wyniki niż Inception-v3 i ResNet-152 przy mniejszej liczbie parametrów. Stał się jedną z najpopularniejszych architektur „backbone” w zadaniach computer vision w latach 2018–2022.
Zastosowania
- Klasyfikacja obrazów
- Detekcja obiektów
- Segmentacja semantyczna
- Analiza obrazów medycznych
- Rozpoznawanie twarzy
Aktualny status (2026)
Chociaż w erze Vision Transformerów i Swin Transformerów Xception nie jest już najnowocześniejszą architekturą, nadal jest bardzo często używany ze względu na doskonały stosunek wydajności do rozmiaru i szybkość inferencji. Szczególnie popularny w aplikacjach mobilnych i embedded.