Wprowadzenie
Mamba to rodzina architektur neuronowych opartych na State Space Models (SSM), wprowadzona w 2023/2024 roku jako efektywna alternatywa dla architektury Transformer. Dzięki mechanizmowi selektywnego stanu (Selective SSM) osiąga liniową złożoność obliczeniową względem długości sekwencji, w przeciwieństwie do kwadratowej złożoności atencji w Transformerach.
State Space Models (SSM) – podstawy
State Space Models pochodzą z teorii sterowania i dynamiki systemów. Modelują sekwencję jako ciągły system dynamiczny z ukrytym stanem, który ewoluuje w czasie.
Klasyczne SSM (np. S4, HIPPO) były prekursorami Mamby. Mamba wprowadza kluczową innowację – selekttywność: parametry stanu (B, C, Δ) są dynamicznie generowane w zależności od wejścia.
Jak działa Mamba?
- Selective SSM – mechanizm, który pozwala modelowi „zapominać” lub „zapamiętywać” informacje w zależności od kontekstu
- Hardware-aware algorithm – zoptymalizowany pod GPU/TPU (parallel scan zamiast rekurencji)
- Liniowa złożoność – O(N) zamiast O(N²) w Transformerach
- Duża efektywność pamięciowa – szczególnie przy bardzo długich kontekstach (100k+ tokenów)
Porównanie z Transformerami
- Mamba: liniowa skalowalność, niższe zużycie pamięci, szybsze inferencja na długich sekwencjach
- Transformer: lepsza jakość na krótszych sekwencjach, silniejsze modelowanie zależności globalnych
- Hybrydy: Mamba + Attention (np. Jamba, Zamba, Mamba-2) – najlepsze z obu światów
Ważne warianty i rozwój (2025/2026)
- Mamba-2 – ulepszona wersja z nowszym matematycznym sformułowaniem
- Jamba (AI21) – hybryda Mamba + Transformer
- Zamba (Zyphra) – bardzo efektywna wersja
- Vision Mamba (Vim, VMamba) – adaptacja do przetwarzania obrazów
- BioMamba, AudioMamba – specjalizowane domenowo
Zalety i ograniczenia
Zalety: znakomita wydajność na długich kontekstach, niższe koszty inferencji, lepsza skalowalność.
Ograniczenia: nieco słabsza jakość na niektórych zadaniach wymagających silnej globalnej atencji (choć różnica maleje z kolejnymi wersjami).
Powiązane pojęcia
State Space Model (SSM) • Selective SSM • S4 • HIPPO • Linear Attention • RWKV • RetNet • Transformer • Long Context Modeling • Efficient Architectures