Mixture of Experts (MoE) | Encyklopedia AI

Wprowadzenie

Mixture of Experts (MoE) to architektura sieci neuronowych, w której model składa się z wielu „ekspertów” (podmodeli), a specjalny mechanizm (router/gating network) decyduje, które z nich aktywować dla danego wejścia. Dzięki temu model może mieć setki miliardów lub biliony parametrów, ale podczas inferencji aktywuje tylko ich ułamek.

Jak działa Mixture of Experts?

Każdy token wejściowy jest przetwarzany przez router, który wybiera k ekspertów (najczęściej 2–8). Tylko wybrani eksperci przetwarzają dany token. Wyniki są ważone i sumowane.

y = ∑_i=1^k G(x)_i · E_i(x)

Gdzie G(x) to wyjście routera (ważenia), a E_i(x) to wyjście i-tego eksperta.

Zalety MoE

Znacznie lepsza skalowalność – modele mogą mieć ogromną liczbę parametrów przy rozsądnym koszcie inferencji
Lepsza specjalizacja – każdy ekspert może się specjalizować w innym typie zadań lub domenie
Niższe zużycie pamięci i energii podczas generowania
Szybsza inferencja w porównaniu do gęstych modeli o podobnej liczbie parametrów

Znane modele MoE

Mixtral 8x7B / 8x22B (Mistral AI) – jeden z najpopularniejszych otwartych modeli MoE
Grok-1 (xAI) – 314B parametrów, 8 ekspertów
DeepSeek-V2 / DeepSeek-V3 – bardzo efektywne modele MoE
Switch Transformer (Google, 2021) – pionierska praca
GPT-4 (prawdopodobnie MoE, choć OpenAI nie potwierdziło)
Qwen2.5-MoE, Snowflake Arctic

Wyzwania MoE

Trudniejszy trening (load balancing, routing instability)
Wymaga specjalnych optymalizacji (expert parallelism)
Wyższe zużycie pamięci VRAM podczas treningu
Problemy z „expert collapse” (niektóre eksperci mogą być ignorowane)

MoE vs Dense Models

Modele gęste (Dense) aktywują wszystkie parametry dla każdego tokena. Modele MoE aktywują tylko część parametrów, co pozwala osiągnąć znacznie lepszy stosunek jakości do kosztów obliczeniowych.

Aktualny status (2026)

Mixture of Experts stało się jedną z dominujących architektur w budowie największych modeli AI. Prawie wszystkie czołowe laboratoria (Mistral, xAI, DeepSeek, Alibaba, Google) używają MoE w swoich flagowych modelach. Dzięki MoE możliwe jest trenowanie modeli rzędu 400–2000 miliardów parametrów, które w praktyce zużywają obliczenia porównywalne do modeli 30–70B. Trend ten będzie się nasilał – przyszłość dużych modeli językowych to właśnie architektury MoE w połączeniu z ulepszonym routingiem i Quantization.