Wprowadzenie
Mixture of Experts (MoE) to architektura sieci neuronowych, w której model składa się z wielu „ekspertów” (podmodeli), a specjalny mechanizm (router/gating network) decyduje, które z nich aktywować dla danego wejścia. Dzięki temu model może mieć setki miliardów lub biliony parametrów, ale podczas inferencji aktywuje tylko ich ułamek.
Jak działa Mixture of Experts?
Każdy token wejściowy jest przetwarzany przez router, który wybiera k ekspertów (najczęściej 2–8). Tylko wybrani eksperci przetwarzają dany token. Wyniki są ważone i sumowane.
y = ∑i=1k G(x)i · Ei(x)
Gdzie G(x) to wyjście routera (ważenia), a Ei(x) to wyjście i-tego eksperta.
Zalety MoE
- Znacznie lepsza skalowalność – modele mogą mieć ogromną liczbę parametrów przy rozsądnym koszcie inferencji
- Lepsza specjalizacja – każdy ekspert może się specjalizować w innym typie zadań lub domenie
- Niższe zużycie pamięci i energii podczas generowania
- Szybsza inferencja w porównaniu do gęstych modeli o podobnej liczbie parametrów
Znane modele MoE
- Mixtral 8x7B / 8x22B (Mistral AI) – jeden z najpopularniejszych otwartych modeli MoE
- Grok-1 (xAI) – 314B parametrów, 8 ekspertów
- DeepSeek-V2 / DeepSeek-V3 – bardzo efektywne modele MoE
- Switch Transformer (Google, 2021) – pionierska praca
- GPT-4 (prawdopodobnie MoE, choć OpenAI nie potwierdziło)
- Qwen2.5-MoE, Snowflake Arctic
Wyzwania MoE
- Trudniejszy trening (load balancing, routing instability)
- Wymaga specjalnych optymalizacji (expert parallelism)
- Wyższe zużycie pamięci VRAM podczas treningu
- Problemy z „expert collapse” (niektóre eksperci mogą być ignorowane)
MoE vs Dense Models
Modele gęste (Dense) aktywują wszystkie parametry dla każdego tokena. Modele MoE aktywują tylko część parametrów, co pozwala osiągnąć znacznie lepszy stosunek jakości do kosztów obliczeniowych.
Aktualny status (2026)
Mixture of Experts stało się jedną z dominujących architektur w budowie największych modeli AI. Prawie wszystkie czołowe laboratoria (Mistral, xAI, DeepSeek, Alibaba, Google) używają MoE w swoich flagowych modelach. Dzięki MoE możliwe jest trenowanie modeli rzędu 400–2000 miliardów parametrów, które w praktyce zużywają obliczenia porównywalne do modeli 30–70B. Trend ten będzie się nasilał – przyszłość dużych modeli językowych to właśnie architektury MoE w połączeniu z ulepszonym routingiem i Quantization.