Precision-Recall Curve | Encyklopedia AI

Wprowadzenie

Precision-Recall Curve (PR Curve) to jedna z najważniejszych metryk służących do oceny jakości modeli klasyfikacji binarnej. W przeciwieństwie do ROC-AUC jest szczególnie przydatna, gdy klasy są mocno niezbalansowane (np. 1% pozytywnych przykładów).

Podstawowe definicje

Precision (Precyzja) = TP / (TP + FP) – ile spośród wskazanych jako pozytywne jest rzeczywiście pozytywnych
Recall (Czułość) = TP / (TP + FN) – ile rzeczywistych pozytywnych zostało wykrytych

Jak działa Precision-Recall Curve?

Krzywa PR pokazuje zależność między Precision a Recall przy różnych progach decyzyjnych modelu. Każdemu progowi odpowiada inny punkt na krzywej.

Average Precision (AP) lub PR-AUC (Area Under the PR Curve) to pojedyncza liczba podsumowująca jakość modelu – im wyższa, tym lepszy model.

Precision-Recall vs ROC-AUC

ROC-AUC – dobrze działa przy zbalansowanych danych
PR Curve – znacznie lepsza przy niezbalansowanych klasach (gdy negatywnych przykładów jest bardzo dużo)
Przy silnej niezbalansowaniu ROC-AUC może dawać optymistyczne, mylące wyniki, podczas gdy PR-AUC pozostaje realistyczna

Zalety metryki Precision-Recall

Bardzo dobra przy problemach z imbalanced data (fraud detection, diagnostyka medyczna, wykrywanie rzadkich zdarzeń)
Bezpośrednio pokazuje kompromis między precyzją a czułością
Łatwo interpretowalna w kontekście biznesowym („ile fałszywych alarmów jestem w stanie zaakceptować”)
Average Precision jest standardem w wielu benchmarkach (np. COCO detection, Pascal VOC)

Kiedy używać PR Curve?

Wykrywanie fraudów bankowych
Diagnoza chorób (gdzie choroba jest rzadka)
Wykrywanie obiektów na obrazach
Klasyfikacja spamu
Wszelkie zadania, gdzie klasa pozytywna stanowi mniej niż 10–20% danych

Jak interpretować krzywą?

Krzywa bliżej prawego górnego rogu = lepszy model
Wysoka Precision przy wysokim Recall = doskonały model
Płaska krzywa na niskim poziomie Precision = słaby model

Aktualny status (2026)

Precision-Recall Curve pozostaje standardem oceny modeli w zadaniach z niezbalansowanymi danymi. Nowoczesne frameworki (scikit-learn, TorchMetrics, TensorFlow) oferują bardzo wydajne implementacje. W erze dużych modeli językowych i multimodalnych metryka ta jest również używana do oceny retrieverów w systemach RAG oraz detekcji halucynacji.