Knowledge Distillation | Encyklopedia AI

Wprowadzenie

Knowledge Distillation (distylacja wiedzy) to technika kompresji modeli AI, w której duży, wytrenowany model (Teacher) przekazuje swoją wiedzę do mniejszego modelu (Student). Zamiast uczyć studenta tylko na twardych etykietach, uczymy go na „miękkich” predykcjach nauczyciela (soft labels).

Historia

Koncepcja została sformalizowana w 2015 roku przez Geoffreya Hintona i współpracowników w pracy „Distilling the Knowledge in a Neural Network”. Od tego czasu stała się jedną z najpopularniejszych metod kompresji modeli, szczególnie w erze dużych modeli językowych.

Jak działa Knowledge Distillation?

Zamiast standardowej funkcji straty (np. Cross-Entropy z one-hot labels), używamy kombinacji:

Hard Loss – porównanie z prawdziwymi etykietami
Soft Loss – porównanie z wyjściem nauczyciela (z temperaturą softmax)

Loss = α·L_hard + (1−α)·T²·L_KL(softmax(z_s/T), softmax(z_t/T))

Typy distylacji

Response-based – distylacja wyjść modelu (najpopularniejsza)
Feature-based – distylacja aktywacji warstw pośrednich
Relation-based – distylacja relacji między przykładami
Self-Distillation – model distyluje sam siebie

Zalety Knowledge Distillation

Znaczna redukcja rozmiaru i prędkości inferencji (często 2–10× mniejszy model)
Często lepsza generalizacja studenta niż przy treningu od zera
Możliwość transferu wiedzy z bardzo dużych modeli (np. GPT-4 → mniejszy model)
Łatwość wdrożenia w produkcji

Zastosowania

Kompresja dużych modeli językowych (Llama, Mistral → mniejsze wersje)
Modele na urządzeniach mobilnych i edge devices
Medycyna (duży model nauczycielski → lekki model do urządzeń diagnostycznych)
Real-time inference (chatboty, rekomendacje)

Aktualny status (2026)

Knowledge Distillation jest standardową techniką w pipeline kompresji modeli. W erze LLM bardzo często łączy się ją z LoRA, Quantization i Pruning. Nowoczesne metody (Minilm, DistilBERT, TinyBERT, DeepSeek Distillation, Phi-系列) pokazują, że małe modele distylowane z dużych nauczycieli mogą osiągać zaskakująco wysoką jakość. Jest to jedna z najważniejszych technik umożliwiających uruchamianie potężnych modeli AI na zwykłym sprzęcie.