Wprowadzenie
F1 Score to metryka oceny modeli klasyfikacji binarnej, będąca harmoniczną średnią Precision (precyzji) i Recall (czułości). Jest szczególnie cenna w sytuacjach, gdy klasy są mocno niezbalansowane i sama Accuracy może być myląca.
Matematyczna definicja
F1 = 2 × (Precision × Recall) / (Precision + Recall)
Gdzie:
- Precision = TP / (TP + FP)
- Recall = TP / (TP + FN)
Interpretacja
- F1 = 1.0 → idealny model (perfekcyjna precyzja i czułość)
- F1 = 0.0 → model nie wykrywa żadnej klasy pozytywnej
- F1 jest wysoki tylko wtedy, gdy zarówno Precision, jak i Recall są wysokie
Kiedy używać F1 Score?
- Przy niezbalansowanych danych (np. 1% klasy pozytywnej)
- Wykrywanie fraudów, chorób, spamu
- Wszystkie przypadki, gdzie zarówno fałszywe pozytywy, jak i fałszywe negatywy są kosztowne
- Gdy nie można zdecydować, czy ważniejsza jest precyzja czy czułość
F1 Score vs inne metryki
- Accuracy – myląca przy niezbalansowanych klasach
- Precision – skupia się na jakości pozytywów
- Recall – skupia się na kompletności wykrywania
- F1 – kompromis między Precision a Recall
Warianty
- Macro F1 – średnia arytmetyczna F1 dla każdej klasy (przy problemach wielo-klasowych)
- Micro F1 – liczy globalnie wszystkie TP, FP, FN
- Weighted F1 – ważona średnia według liczebności klas
Aktualny status (2026)
F1 Score nadal pozostaje jedną z najważniejszych metryk w zadaniach klasyfikacji binarnej i wielo-klasowej, szczególnie w przemyśle i medycynie. Nowoczesne frameworki (scikit-learn, TorchMetrics, XGBoost) oferują bardzo wygodne implementacje. W erze dużych modeli językowych F1 jest również używany do oceny retrieverów w systemach RAG oraz detekcji halucynacji.