F1 Score

Wprowadzenie

F1 Score to metryka oceny modeli klasyfikacji binarnej, będąca harmoniczną średnią Precision (precyzji) i Recall (czułości). Jest szczególnie cenna w sytuacjach, gdy klasy są mocno niezbalansowane i sama Accuracy może być myląca.

Matematyczna definicja

F1 = 2 × (Precision × Recall) / (Precision + Recall)

Gdzie:

  • Precision = TP / (TP + FP)
  • Recall = TP / (TP + FN)

Interpretacja

  • F1 = 1.0 → idealny model (perfekcyjna precyzja i czułość)
  • F1 = 0.0 → model nie wykrywa żadnej klasy pozytywnej
  • F1 jest wysoki tylko wtedy, gdy zarówno Precision, jak i Recall są wysokie

Kiedy używać F1 Score?

  • Przy niezbalansowanych danych (np. 1% klasy pozytywnej)
  • Wykrywanie fraudów, chorób, spamu
  • Wszystkie przypadki, gdzie zarówno fałszywe pozytywy, jak i fałszywe negatywy są kosztowne
  • Gdy nie można zdecydować, czy ważniejsza jest precyzja czy czułość

F1 Score vs inne metryki

  • Accuracy – myląca przy niezbalansowanych klasach
  • Precision – skupia się na jakości pozytywów
  • Recall – skupia się na kompletności wykrywania
  • F1 – kompromis między Precision a Recall

Warianty

  • Macro F1 – średnia arytmetyczna F1 dla każdej klasy (przy problemach wielo-klasowych)
  • Micro F1 – liczy globalnie wszystkie TP, FP, FN
  • Weighted F1 – ważona średnia według liczebności klas

Aktualny status (2026)

F1 Score nadal pozostaje jedną z najważniejszych metryk w zadaniach klasyfikacji binarnej i wielo-klasowej, szczególnie w przemyśle i medycynie. Nowoczesne frameworki (scikit-learn, TorchMetrics, XGBoost) oferują bardzo wygodne implementacje. W erze dużych modeli językowych F1 jest również używany do oceny retrieverów w systemach RAG oraz detekcji halucynacji.