Wprowadzenie
Cross-Entropy Loss (entropia krzyżowa), zwana również Log Loss, to jedna z najpopularniejszych funkcji straty stosowanych w zadaniach klasyfikacji. Mierzy ona różnicę między rozkładem prawdopodobieństwa przewidywanym przez model a prawdziwym rozkładem etykiet.
Matematyczna definicja
Binary Cross-Entropy (dla klasyfikacji binarnej):
L = − [ y·log(ŷ) + (1−y)·log(1−ŷ) ]
Categorical Cross-Entropy (dla klasyfikacji wielo-klasowej):
L = − ∑i=1C yi · log(ŷi)
Interpretacja
Cross-Entropy karze model tym bardziej, im bardziej pewny jest w złej odpowiedzi. Jeśli model przypisze prawdopodobieństwo bliskie 0 poprawnej klasie, strata będzie bardzo wysoka.
Związek z KL Divergence
Cross-Entropy = Entropy(true distribution) + KL Divergence(predicted || true)
Ponieważ entropia prawdziwego rozkładu jest stała podczas treningu, minimalizacja Cross-Entropy jest równoważna minimalizacji KL Divergence między przewidywanym a prawdziwym rozkładem.
Zalety Cross-Entropy Loss
- Matematycznie dobrze ugruntowana i różniczkowalna
- Dobrze współpracuje z funkcją softmax w warstwie wyjściowej
- Szybka zbieżność podczas treningu
- Skutecznie penalizuje pewność w błędnych predykcjach
Ograniczenia
- Bardzo wrażliwa na błędne etykiety (label noise)
- Może powodować overfitting przy małych zbiorach danych
- W przypadku ekstremalnie niezbalansowanych klas wymaga dodatkowych technik (class weights, focal loss)
Warianty
- Binary Cross-Entropy – klasyfikacja binarna
- Categorical Cross-Entropy – klasyfikacja wielo-klasowa
- Sparse Categorical Cross-Entropy – gdy etykiety są liczbami całkowitymi
- Focal Loss – wariant dla mocno niezbalansowanych danych
Aktualny status (2026)
Cross-Entropy Loss pozostaje standardową funkcją straty w prawie wszystkich zadaniach klasyfikacji – zarówno w klasycznych modelach, jak i w dużych modelach językowych (next-token prediction jest formą cross-entropy). W nowoczesnych architekturach często łączy się ją z technikami takimi jak Label Smoothing, Mixup lub Focal Loss, aby jeszcze bardziej poprawić stabilność i odporność na szum w etykietach.