Encoder-Decoder

Wprowadzenie

Encoder-Decoder (Koduj-Rozkoduj) to architektura sieci neuronowych zaprojektowana do przetwarzania sekwencji wejściowych na sekwencje wyjściowe. Jest podstawą wielu modeli sekwencyjnych, w tym rewolucyjnego Transformera.

Jak działa Encoder-Decoder?

  • Encoder – przetwarza sekwencję wejściową i tworzy bogatą reprezentację kontekstową (hidden states)
  • Decoder – generuje sekwencję wyjściową, korzystając z reprezentacji z Encodera
  • Cross-Attention – mechanizm, który pozwala decoderowi „patrzeć” na wyjście encodera

Encoder-Decoder w architekturze Transformera

W modelu Transformer (Vaswani et al., 2017):

  • Encoder składa się z warstw Self-Attention + Feed Forward
  • Decoder składa się z Masked Self-Attention + Cross-Attention + Feed Forward
  • Całość jest oparta wyłącznie na mechanizmie uwagi (Attention)

Popularne modele Encoder-Decoder

  • BART (Facebook) – denoising autoencoder
  • T5 (Google) – „Text-to-Text Transfer Transformer”
  • MarianMT – modele tłumaczeniowe
  • Flan-T5, UL2
  • Switch Transformer, MoE models

Zastosowania architektury Encoder-Decoder

  • Tłumaczenie maszynowe (Neural Machine Translation)
  • Podsumowywanie tekstu
  • Generowanie pytań i odpowiedzi
  • Przekształcanie tekstu (np. stylizacja, upraszczanie)
  • Opis obrazów (Image Captioning)
  • Generowanie kodu źródłowego

Encoder-Decoder vs Decoder-only (2026)

Obecnie dominują modele Decoder-only (GPT, Llama, Grok, Mistral), ale architektura Encoder-Decoder nadal jest bardzo skuteczna w zadaniach wymagających zrozumienia całego kontekstu wejściowego (np. podsumowania, tłumaczenia, RAG).

Powiązane pojęcia

Transformer • Self-Attention • Cross-Attention • Seq2Seq • BART • T5 • Attention Mechanism • BERT • GPT • Sequence-to-Sequence Learning

Dodano: 21.05.2026