Wprowadzenie
Model Distillation (Destylacja Modeli), znana również jako Knowledge Distillation, to technika uczenia maszynowego polegająca na transferze wiedzy z dużego, wysoko wydajnego modelu (Teacher) do mniejszego, bardziej efektywnego modelu (Student). Dzięki temu uzyskuje się modele, które zachowują znaczną część możliwości oryginalnego modelu przy znacznie niższych wymaganiach obliczeniowych.
Jak działa Model Distillation?
Zamiast uczyć model Student wyłącznie na twardych etykietach (hard labels), trenuje się go na „miękkich” predykcjach (soft labels) generowanych przez model Teacher. Temperatura softmax jest często podwyższana, aby uzyskać bogatszą informację o rozkładzie prawdopodobieństw.
Główne typy destylacji
- Response Distillation (Logit-based) – uczenie na wyjściach (logitach) modelu Teacher
- Feature Distillation – dopasowywanie reprezentacji wewnętrznych (hidden states, attention maps)
- White-box Distillation – dostęp do architektury i wag Teacher
- Black-box Distillation – dostęp tylko do API (np. destylacja z GPT-4 do mniejszego modelu)
- Self-Distillation – model destyluje sam siebie
Zalety Model Distillation
- Znaczna redukcja rozmiaru modelu (nawet 10x mniejszy)
- Szybsza inferencja i niższe koszty API
- Lepsza wydajność na urządzeniach brzegowych (mobile, edge AI)
- Zachowanie dużej części zdolności rozumowania Teacher
- Możliwość tworzenia specjalistycznych, domenowych modeli
Popularne przykłady i techniki
- DistilBERT – klasyczny przykład destylacji BERTa
- MiniLM – bardzo efektywna destylacja z naciskiem na attention
- DistilGPT, Phi-1/2/3 (Microsoft) – destylacja dużych LLM-ów
- LLM Distillation – techniki jak Alpaca, Vicuna, Orca, Zephyr
- Recent 2025/2026: DeepSeek-R1-Distill, Llama-3.1-Distill series
Najlepsze praktyki (2026)
- Używanie kombinacji loss: hard label loss + distillation loss + feature loss
- Dobór odpowiedniej temperatury (temperature scaling)
- Destylacja w etapach (progressive distillation)
- Monitorowanie „dark knowledge” przekazywanej przez Teachera
- Łączenie z technikami kompresji: pruning + quantization + distillation
Powiązane pojęcia
Knowledge Distillation • Model Compression • Pruning • Quantization • Teacher-Student Framework • DistilBERT • MiniLM • LLM Distillation • Edge AI • Model Efficiency