F1 Score | Encyklopedia AI

Wprowadzenie

F1 Score to metryka oceny modeli klasyfikacji binarnej, będąca harmoniczną średnią Precision (precyzji) i Recall (czułości). Jest szczególnie cenna w sytuacjach, gdy klasy są mocno niezbalansowane i sama Accuracy może być myląca.

Matematyczna definicja

F1 = 2 × (Precision × Recall) / (Precision + Recall)

Gdzie:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

Interpretacja

F1 = 1.0 → idealny model (perfekcyjna precyzja i czułość)
F1 = 0.0 → model nie wykrywa żadnej klasy pozytywnej
F1 jest wysoki tylko wtedy, gdy zarówno Precision, jak i Recall są wysokie

Kiedy używać F1 Score?

Przy niezbalansowanych danych (np. 1% klasy pozytywnej)
Wykrywanie fraudów, chorób, spamu
Wszystkie przypadki, gdzie zarówno fałszywe pozytywy, jak i fałszywe negatywy są kosztowne
Gdy nie można zdecydować, czy ważniejsza jest precyzja czy czułość

F1 Score vs inne metryki

Accuracy – myląca przy niezbalansowanych klasach
Precision – skupia się na jakości pozytywów
Recall – skupia się na kompletności wykrywania
F1 – kompromis między Precision a Recall

Warianty

Macro F1 – średnia arytmetyczna F1 dla każdej klasy (przy problemach wielo-klasowych)
Micro F1 – liczy globalnie wszystkie TP, FP, FN
Weighted F1 – ważona średnia według liczebności klas

Aktualny status (2026)

F1 Score nadal pozostaje jedną z najważniejszych metryk w zadaniach klasyfikacji binarnej i wielo-klasowej, szczególnie w przemyśle i medycynie. Nowoczesne frameworki (scikit-learn, TorchMetrics, XGBoost) oferują bardzo wygodne implementacje. W erze dużych modeli językowych F1 jest również używany do oceny retrieverów w systemach RAG oraz detekcji halucynacji.