Cross-Entropy Loss

Wprowadzenie

Cross-Entropy Loss (entropia krzyżowa), zwana również Log Loss, to jedna z najpopularniejszych funkcji straty stosowanych w zadaniach klasyfikacji. Mierzy ona różnicę między rozkładem prawdopodobieństwa przewidywanym przez model a prawdziwym rozkładem etykiet.

Matematyczna definicja

Binary Cross-Entropy (dla klasyfikacji binarnej):
L = − [ y·log(ŷ) + (1−y)·log(1−ŷ) ]

Categorical Cross-Entropy (dla klasyfikacji wielo-klasowej):
L = − ∑i=1C yi · log(ŷi)

Interpretacja

Cross-Entropy karze model tym bardziej, im bardziej pewny jest w złej odpowiedzi. Jeśli model przypisze prawdopodobieństwo bliskie 0 poprawnej klasie, strata będzie bardzo wysoka.

Związek z KL Divergence

Cross-Entropy = Entropy(true distribution) + KL Divergence(predicted || true)
Ponieważ entropia prawdziwego rozkładu jest stała podczas treningu, minimalizacja Cross-Entropy jest równoważna minimalizacji KL Divergence między przewidywanym a prawdziwym rozkładem.

Zalety Cross-Entropy Loss

  • Matematycznie dobrze ugruntowana i różniczkowalna
  • Dobrze współpracuje z funkcją softmax w warstwie wyjściowej
  • Szybka zbieżność podczas treningu
  • Skutecznie penalizuje pewność w błędnych predykcjach

Ograniczenia

  • Bardzo wrażliwa na błędne etykiety (label noise)
  • Może powodować overfitting przy małych zbiorach danych
  • W przypadku ekstremalnie niezbalansowanych klas wymaga dodatkowych technik (class weights, focal loss)

Warianty

  • Binary Cross-Entropy – klasyfikacja binarna
  • Categorical Cross-Entropy – klasyfikacja wielo-klasowa
  • Sparse Categorical Cross-Entropy – gdy etykiety są liczbami całkowitymi
  • Focal Loss – wariant dla mocno niezbalansowanych danych

Aktualny status (2026)

Cross-Entropy Loss pozostaje standardową funkcją straty w prawie wszystkich zadaniach klasyfikacji – zarówno w klasycznych modelach, jak i w dużych modelach językowych (next-token prediction jest formą cross-entropy). W nowoczesnych architekturach często łączy się ją z technikami takimi jak Label Smoothing, Mixup lub Focal Loss, aby jeszcze bardziej poprawić stabilność i odporność na szum w etykietach.