Wprowadzenie
Queueing Theory (Teoria kolejek) to gałąź matematyki stosowanej, która zajmuje się modelowaniem i analizą systemów, w których obiekty (zapytania, zadania) czekają w kolejce na przetworzenie. W kontekście inferencji modeli AI (szczególnie LLM) jest kluczowa do projektowania skalowalnych, niskolatencyjnych systemów servingowych.
Podstawowe pojęcia w inference
- Arrival Rate (λ) – liczba zapytań przychodzących na sekundę
- Service Rate (μ) – liczba zapytań, które serwer jest w stanie przetworzyć na sekundę
- Utilization (ρ = λ/μ) – procentowe obciążenie serwera (nie może przekroczyć 100%)
- Latency – całkowity czas oczekiwania + czas przetwarzania
- Throughput – rzeczywista liczba obsłużonych zapytań na sekundę
Najczęściej stosowane modele
- M/M/1 – jeden serwer, rozkład Poissona przyjścia i obsługi
- M/M/c – wiele serwerów (c) – najpopularniejszy w klastrach inferencyjnych
- M/G/1 – ogólny rozkład czasu obsługi (ważne przy zmiennej długości promptów i generacji)
- Priority Queues – kolejki z priorytetami (np. płatni użytkownicy vs darmowi)
Zastosowanie w LLM Inference
- Optymalizacja liczby instancji GPU / vCPU
- Projektowanie systemów autoskalujących (Kubernetes + HPA)
- Zarządzanie paged attention i continuous batching (vLLM)
- Balansowanie obciążenia między workerami
- Przewidywanie tail latency (P95, P99)
- Implementacja rate limiting i throttling
Kluczowe wyzwania w 2026
- Zmienny czas inferencji w zależności od długości promptu i odpowiedzi
- Memory-bound vs Compute-bound obciążenie
- Trade-off między latency a throughput (continuous batching)
- Kosztowne GPU – maksymalizacja utilization bez przekroczenia limitów latency
Powiązane pojęcia
LLM Serving • Continuous Batching • vLLM • TensorRT-LLM • Load Balancing • Autoscaling • Tail Latency • M/M/c • Little’s Law • Distributed Inference