Cross-Entropy Loss | Encyklopedia AI

Wprowadzenie

Cross-Entropy Loss (entropia krzyżowa), zwana również Log Loss, to jedna z najpopularniejszych funkcji straty stosowanych w zadaniach klasyfikacji. Mierzy ona różnicę między rozkładem prawdopodobieństwa przewidywanym przez model a prawdziwym rozkładem etykiet.

Matematyczna definicja

Binary Cross-Entropy (dla klasyfikacji binarnej):
L = − [ y·log(ŷ) + (1−y)·log(1−ŷ) ]

Categorical Cross-Entropy (dla klasyfikacji wielo-klasowej):
L = − ∑_i=1^C y_i · log(ŷ_i)

Interpretacja

Cross-Entropy karze model tym bardziej, im bardziej pewny jest w złej odpowiedzi. Jeśli model przypisze prawdopodobieństwo bliskie 0 poprawnej klasie, strata będzie bardzo wysoka.

Związek z KL Divergence

Cross-Entropy = Entropy(true distribution) + KL Divergence(predicted || true)
Ponieważ entropia prawdziwego rozkładu jest stała podczas treningu, minimalizacja Cross-Entropy jest równoważna minimalizacji KL Divergence między przewidywanym a prawdziwym rozkładem.

Zalety Cross-Entropy Loss

Matematycznie dobrze ugruntowana i różniczkowalna
Dobrze współpracuje z funkcją softmax w warstwie wyjściowej
Szybka zbieżność podczas treningu
Skutecznie penalizuje pewność w błędnych predykcjach

Ograniczenia

Bardzo wrażliwa na błędne etykiety (label noise)
Może powodować overfitting przy małych zbiorach danych
W przypadku ekstremalnie niezbalansowanych klas wymaga dodatkowych technik (class weights, focal loss)

Warianty

Binary Cross-Entropy – klasyfikacja binarna
Categorical Cross-Entropy – klasyfikacja wielo-klasowa
Sparse Categorical Cross-Entropy – gdy etykiety są liczbami całkowitymi
Focal Loss – wariant dla mocno niezbalansowanych danych

Aktualny status (2026)

Cross-Entropy Loss pozostaje standardową funkcją straty w prawie wszystkich zadaniach klasyfikacji – zarówno w klasycznych modelach, jak i w dużych modelach językowych (next-token prediction jest formą cross-entropy). W nowoczesnych architekturach często łączy się ją z technikami takimi jak Label Smoothing, Mixup lub Focal Loss, aby jeszcze bardziej poprawić stabilność i odporność na szum w etykietach.