Model Distillation | Encyklopedia AI

Wprowadzenie

Model Distillation (Destylacja Modeli), znana również jako Knowledge Distillation, to technika uczenia maszynowego polegająca na transferze wiedzy z dużego, wysoko wydajnego modelu (Teacher) do mniejszego, bardziej efektywnego modelu (Student). Dzięki temu uzyskuje się modele, które zachowują znaczną część możliwości oryginalnego modelu przy znacznie niższych wymaganiach obliczeniowych.

Jak działa Model Distillation?

Zamiast uczyć model Student wyłącznie na twardych etykietach (hard labels), trenuje się go na „miękkich” predykcjach (soft labels) generowanych przez model Teacher. Temperatura softmax jest często podwyższana, aby uzyskać bogatszą informację o rozkładzie prawdopodobieństw.

Główne typy destylacji

Response Distillation (Logit-based) – uczenie na wyjściach (logitach) modelu Teacher
Feature Distillation – dopasowywanie reprezentacji wewnętrznych (hidden states, attention maps)
White-box Distillation – dostęp do architektury i wag Teacher
Black-box Distillation – dostęp tylko do API (np. destylacja z GPT-4 do mniejszego modelu)
Self-Distillation – model destyluje sam siebie

Zalety Model Distillation

Znaczna redukcja rozmiaru modelu (nawet 10x mniejszy)
Szybsza inferencja i niższe koszty API
Lepsza wydajność na urządzeniach brzegowych (mobile, edge AI)
Zachowanie dużej części zdolności rozumowania Teacher
Możliwość tworzenia specjalistycznych, domenowych modeli

Popularne przykłady i techniki

DistilBERT – klasyczny przykład destylacji BERTa
MiniLM – bardzo efektywna destylacja z naciskiem na attention
DistilGPT, Phi-1/2/3 (Microsoft) – destylacja dużych LLM-ów
LLM Distillation – techniki jak Alpaca, Vicuna, Orca, Zephyr
Recent 2025/2026: DeepSeek-R1-Distill, Llama-3.1-Distill series

Najlepsze praktyki (2026)

Używanie kombinacji loss: hard label loss + distillation loss + feature loss
Dobór odpowiedniej temperatury (temperature scaling)
Destylacja w etapach (progressive distillation)
Monitorowanie „dark knowledge” przekazywanej przez Teachera
Łączenie z technikami kompresji: pruning + quantization + distillation

Powiązane pojęcia

Data Distillation→Knowledge Distillation Multi Teacher AI→Knowledge Distillation→Knowledge Distillation Industrial AI→Knowledge Distillation LLM→Deep Knowledge Distillation→Intelligent Knowledge Distillation AI→Knowledge Distillation Edge AI→Consistency Distillation→Context Distillation→