Mamba / State Space Models

Wprowadzenie

Mamba to rodzina architektur neuronowych opartych na State Space Models (SSM), wprowadzona w 2023/2024 roku jako efektywna alternatywa dla architektury Transformer. Dzięki mechanizmowi selektywnego stanu (Selective SSM) osiąga liniową złożoność obliczeniową względem długości sekwencji, w przeciwieństwie do kwadratowej złożoności atencji w Transformerach.

State Space Models (SSM) – podstawy

State Space Models pochodzą z teorii sterowania i dynamiki systemów. Modelują sekwencję jako ciągły system dynamiczny z ukrytym stanem, który ewoluuje w czasie.

Klasyczne SSM (np. S4, HIPPO) były prekursorami Mamby. Mamba wprowadza kluczową innowację – selekttywność: parametry stanu (B, C, Δ) są dynamicznie generowane w zależności od wejścia.

Jak działa Mamba?

  • Selective SSM – mechanizm, który pozwala modelowi „zapominać” lub „zapamiętywać” informacje w zależności od kontekstu
  • Hardware-aware algorithm – zoptymalizowany pod GPU/TPU (parallel scan zamiast rekurencji)
  • Liniowa złożoność – O(N) zamiast O(N²) w Transformerach
  • Duża efektywność pamięciowa – szczególnie przy bardzo długich kontekstach (100k+ tokenów)

Porównanie z Transformerami

  • Mamba: liniowa skalowalność, niższe zużycie pamięci, szybsze inferencja na długich sekwencjach
  • Transformer: lepsza jakość na krótszych sekwencjach, silniejsze modelowanie zależności globalnych
  • Hybrydy: Mamba + Attention (np. Jamba, Zamba, Mamba-2) – najlepsze z obu światów

Ważne warianty i rozwój (2025/2026)

  • Mamba-2 – ulepszona wersja z nowszym matematycznym sformułowaniem
  • Jamba (AI21) – hybryda Mamba + Transformer
  • Zamba (Zyphra) – bardzo efektywna wersja
  • Vision Mamba (Vim, VMamba) – adaptacja do przetwarzania obrazów
  • BioMamba, AudioMamba – specjalizowane domenowo

Zalety i ograniczenia

Zalety: znakomita wydajność na długich kontekstach, niższe koszty inferencji, lepsza skalowalność.

Ograniczenia: nieco słabsza jakość na niektórych zadaniach wymagających silnej globalnej atencji (choć różnica maleje z kolejnymi wersjami).

Powiązane pojęcia

State Space Model (SSM) • Selective SSM • S4 • HIPPO • Linear Attention • RWKV • RetNet • Transformer • Long Context Modeling • Efficient Architectures