Mamba / State Space Models | Encyklopedia AI

Wprowadzenie

Mamba to rodzina architektur neuronowych opartych na State Space Models (SSM), wprowadzona w 2023/2024 roku jako efektywna alternatywa dla architektury Transformer. Dzięki mechanizmowi selektywnego stanu (Selective SSM) osiąga liniową złożoność obliczeniową względem długości sekwencji, w przeciwieństwie do kwadratowej złożoności atencji w Transformerach.

State Space Models (SSM) – podstawy

State Space Models pochodzą z teorii sterowania i dynamiki systemów. Modelują sekwencję jako ciągły system dynamiczny z ukrytym stanem, który ewoluuje w czasie.

Klasyczne SSM (np. S4, HIPPO) były prekursorami Mamby. Mamba wprowadza kluczową innowację – selekttywność: parametry stanu (B, C, Δ) są dynamicznie generowane w zależności od wejścia.

Jak działa Mamba?

Selective SSM – mechanizm, który pozwala modelowi „zapominać” lub „zapamiętywać” informacje w zależności od kontekstu
Hardware-aware algorithm – zoptymalizowany pod GPU/TPU (parallel scan zamiast rekurencji)
Liniowa złożoność – O(N) zamiast O(N²) w Transformerach
Duża efektywność pamięciowa – szczególnie przy bardzo długich kontekstach (100k+ tokenów)

Porównanie z Transformerami

Mamba: liniowa skalowalność, niższe zużycie pamięci, szybsze inferencja na długich sekwencjach
Transformer: lepsza jakość na krótszych sekwencjach, silniejsze modelowanie zależności globalnych
Hybrydy: Mamba + Attention (np. Jamba, Zamba, Mamba-2) – najlepsze z obu światów

Ważne warianty i rozwój (2025/2026)

Mamba-2 – ulepszona wersja z nowszym matematycznym sformułowaniem
Jamba (AI21) – hybryda Mamba + Transformer
Zamba (Zyphra) – bardzo efektywna wersja
Vision Mamba (Vim, VMamba) – adaptacja do przetwarzania obrazów
BioMamba, AudioMamba – specjalizowane domenowo

Zalety i ograniczenia

Zalety: znakomita wydajność na długich kontekstach, niższe koszty inferencji, lepsza skalowalność.

Ograniczenia: nieco słabsza jakość na niektórych zadaniach wymagających silnej globalnej atencji (choć różnica maleje z kolejnymi wersjami).

Powiązane pojęcia

Efficient Attention→Efficient Transformers→State Space Models→