Wprowadzenie
Confusion Matrix (macierz pomyłek) to podstawowe narzędzie do oceny jakości modeli klasyfikacji. Pokazuje ona w sposób przejrzysty, jak model radzi sobie z poszczególnymi klasami, ujawniając nie tylko ogólną dokładność, ale przede wszystkim rodzaje popełnianych błędów.
Struktura macierzy pomyłek
Dla problemu klasyfikacji binarnej macierz wygląda następująco:
| Predicted Positive | Predicted Negative | |
|---|---|---|
| Actual Positive | TP (True Positive) | FN (False Negative) |
| Actual Negative | FP (False Positive) | TN (True Negative) |
Podstawowe metryki pochodne
- Accuracy = (TP + TN) / (TP + TN + FP + FN)
- Precision = TP / (TP + FP)
- Recall (Sensitivity) = TP / (TP + FN)
- F1 Score = 2 × (Precision × Recall) / (Precision + Recall)
- Specificity = TN / (TN + FP)
Zalety Confusion Matrix
- Pełny obraz błędów modelu (nie tylko ogólna trafność)
- Pozwala ocenić koszt różnych typów błędów
- Niezbędna przy niezbalansowanych zbiorach danych
- Łatwo interpretowalna nawet dla osób nietechnicznych
Kiedy jest szczególnie ważna?
- Diagnostyka medyczna (ważniejsze jest wykrycie choroby niż uniknięcie fałszywego alarmu)
- Wykrywanie fraudów (koszt FP vs FN jest bardzo różny)
- Systemy bezpieczeństwa i detekcji anomalii
- Wszystkie przypadki, gdzie klasy są niezbalansowane
Aktualny status (2026)
Confusion Matrix pozostaje podstawowym narzędziem ewaluacji w zadaniach klasyfikacji. W erze dużych modeli językowych jest również używana do oceny jakości klasyfikatorów w RAG, detekcji halucynacji oraz w multimodalnych zadaniach. Nowoczesne biblioteki (scikit-learn, TorchMetrics, LangChain) oferują wygodne wizualizacje macierzy pomyłek, heatmapy i raporty klasyfikacyjne.
Zrozumienie Confusion Matrix to podstawowa umiejętność każdego, kto zajmuje się oceną i poprawą modeli AI.