Wprowadzenie
GRU (Gated Recurrent Unit) to rodzaj rekurencyjnej sieci neuronowej wprowadzony w 2014 roku przez Kyunghyun Cho i współpracowników. Został zaprojektowany jako uproszczona i bardziej efektywna obliczeniowo alternatywa dla LSTM, zachowując zdolność do zapamiętywania długoterminowych zależności w sekwencjach.
Porównanie z LSTM
LSTM posiada trzy bramki (forget, input, output) i osobną komórkę pamięci. GRU upraszcza architekturę do zaledwie dwóch bramek:
- Update Gate – decyduje, ile informacji z poprzedniego stanu zachować
- Reset Gate – decyduje, ile informacji z poprzedniego stanu zignorować przy obliczaniu nowego kandydata
Matematyczna budowa GRU
zt = σ(Wzxt + Uzht-1)
rt = σ(Wrxt + Urht-1)
h̃t = tanh(Whxt + Uh(rt ⊙ ht-1))
ht = (1 − zt) ⊙ ht-1 + zt ⊙ h̃t
Zalety GRU
- Mniejsza liczba parametrów niż LSTM (szybszy trening i inferencja)
- Mniejsze zużycie pamięci
- Często osiąga porównywalną lub lepszą wydajność przy krótszych sekwencjach
- Łatwiejsza w treningu i mniej podatna na vanishing gradient
Ograniczenia
- Mniejsza pojemność pamięci w porównaniu do LSTM przy bardzo długich sekwencjach
- W dalszym ciągu sekwencyjne przetwarzanie (wolniejsze niż Transformer)
- W większości zastosowań NLP wyparty przez architekturę Transformer
Zastosowania
- Analiza szeregów czasowych (prognozowanie cen, zużycia energii)
- Przetwarzanie mowy i tekstu (szczególnie w starszych modelach)
- Modelowanie sekwencji w bioinformatyce
- Systemy rekomendacyjne oparte na sesjach
- Urządzenia z ograniczonymi zasobami (embedded systems)
Aktualny status (2026)
GRU nadal jest szeroko stosowany w zadaniach związanych z szeregami czasowymi i na urządzeniach o ograniczonych zasobach obliczeniowych, gdzie liczy się niski koszt inferencji. W dziedzinie dużych modeli językowych i multimodalnych został prawie całkowicie zastąpiony przez architekturę Transformer. Jednak w wielu praktycznych zastosowaniach przemysłowych (IoT, edge AI, prognozowanie) GRU pozostaje popularnym wyborem ze względu na prostotę i dobrą wydajność.