Wprowadzenie
Knowledge Distillation (distylacja wiedzy) to technika kompresji modeli AI, w której duży, wytrenowany model (Teacher) przekazuje swoją wiedzę do mniejszego modelu (Student). Zamiast uczyć studenta tylko na twardych etykietach, uczymy go na „miękkich” predykcjach nauczyciela (soft labels).
Historia
Koncepcja została sformalizowana w 2015 roku przez Geoffreya Hintona i współpracowników w pracy „Distilling the Knowledge in a Neural Network”. Od tego czasu stała się jedną z najpopularniejszych metod kompresji modeli, szczególnie w erze dużych modeli językowych.
Jak działa Knowledge Distillation?
Zamiast standardowej funkcji straty (np. Cross-Entropy z one-hot labels), używamy kombinacji:
- Hard Loss – porównanie z prawdziwymi etykietami
- Soft Loss – porównanie z wyjściem nauczyciela (z temperaturą softmax)
Loss = α·Lhard + (1−α)·T²·LKL(softmax(zs/T), softmax(zt/T))
Typy distylacji
- Response-based – distylacja wyjść modelu (najpopularniejsza)
- Feature-based – distylacja aktywacji warstw pośrednich
- Relation-based – distylacja relacji między przykładami
- Self-Distillation – model distyluje sam siebie
Zalety Knowledge Distillation
- Znaczna redukcja rozmiaru i prędkości inferencji (często 2–10× mniejszy model)
- Często lepsza generalizacja studenta niż przy treningu od zera
- Możliwość transferu wiedzy z bardzo dużych modeli (np. GPT-4 → mniejszy model)
- Łatwość wdrożenia w produkcji
Zastosowania
- Kompresja dużych modeli językowych (Llama, Mistral → mniejsze wersje)
- Modele na urządzeniach mobilnych i edge devices
- Medycyna (duży model nauczycielski → lekki model do urządzeń diagnostycznych)
- Real-time inference (chatboty, rekomendacje)
Aktualny status (2026)
Knowledge Distillation jest standardową techniką w pipeline kompresji modeli. W erze LLM bardzo często łączy się ją z LoRA, Quantization i Pruning. Nowoczesne metody (Minilm, DistilBERT, TinyBERT, DeepSeek Distillation, Phi-系列) pokazują, że małe modele distylowane z dużych nauczycieli mogą osiągać zaskakująco wysoką jakość. Jest to jedna z najważniejszych technik umożliwiających uruchamianie potężnych modeli AI na zwykłym sprzęcie.