Wprowadzenie
Inference (Inferencja) to proces, w którym wytrenowany model sztucznej inteligencji generuje predykcje, odpowiedzi lub treści na podstawie nowych danych wejściowych.
Główne rodzaje inferencji
- Batch Inference – przetwarzanie wielu próbek jednocześnie
- Real-time Inference – natychmiastowa odpowiedź (ChatGPT, Grok, Claude)
- Edge Inference – działanie modelu bezpośrednio na urządzeniu użytkownika
- Streaming Inference – generowanie token po tokenie
Inferencja w dużych modelach językowych (LLM)
W przypadku LLM inferencja obejmuje forward pass przez architekturę transformera, zarządzanie KV Cache, sampling oraz detokenizację.
Optymalizacja inferencji 2026
- Quantization (INT4, FP8, GPTQ, AWQ)
- vLLM, TensorRT-LLM, ONNX Runtime, Hugging Face TGI
- Speculative Decoding, Medusa, Lookahead
- Continuous Batching i PagedAttention
- Model distillation i pruning
Trening vs Inferencja
Trening to faza uczenia modelu (kosztowna obliczeniowo), natomiast inferencja to produkcyjne wykorzystanie modelu – stanowi obecnie większość kosztów działania aplikacji AI.
Powiązane pojęcia
Forward Pass • KV Cache • Quantization • LLM • Sampling • vLLM • TensorRT • RAG • Fine-tuning • Edge AI