Queueing Theory in Inference

Wprowadzenie

Queueing Theory (Teoria kolejek) to gałąź matematyki stosowanej, która zajmuje się modelowaniem i analizą systemów, w których obiekty (zapytania, zadania) czekają w kolejce na przetworzenie. W kontekście inferencji modeli AI (szczególnie LLM) jest kluczowa do projektowania skalowalnych, niskolatencyjnych systemów servingowych.

Podstawowe pojęcia w inference

  • Arrival Rate (λ) – liczba zapytań przychodzących na sekundę
  • Service Rate (μ) – liczba zapytań, które serwer jest w stanie przetworzyć na sekundę
  • Utilization (ρ = λ/μ) – procentowe obciążenie serwera (nie może przekroczyć 100%)
  • Latency – całkowity czas oczekiwania + czas przetwarzania
  • Throughput – rzeczywista liczba obsłużonych zapytań na sekundę

Najczęściej stosowane modele

  • M/M/1 – jeden serwer, rozkład Poissona przyjścia i obsługi
  • M/M/c – wiele serwerów (c) – najpopularniejszy w klastrach inferencyjnych
  • M/G/1 – ogólny rozkład czasu obsługi (ważne przy zmiennej długości promptów i generacji)
  • Priority Queues – kolejki z priorytetami (np. płatni użytkownicy vs darmowi)

Zastosowanie w LLM Inference

  • Optymalizacja liczby instancji GPU / vCPU
  • Projektowanie systemów autoskalujących (Kubernetes + HPA)
  • Zarządzanie paged attention i continuous batching (vLLM)
  • Balansowanie obciążenia między workerami
  • Przewidywanie tail latency (P95, P99)
  • Implementacja rate limiting i throttling

Kluczowe wyzwania w 2026

  • Zmienny czas inferencji w zależności od długości promptu i odpowiedzi
  • Memory-bound vs Compute-bound obciążenie
  • Trade-off między latency a throughput (continuous batching)
  • Kosztowne GPU – maksymalizacja utilization bez przekroczenia limitów latency

Powiązane pojęcia

LLM Serving • Continuous Batching • vLLM • TensorRT-LLM • Load Balancing • Autoscaling • Tail Latency • M/M/c • Little’s Law • Distributed Inference