Wprowadzenie
Krippendorff's Alpha (α) to jedna z najbardziej wszechstronnych miar statystycznych oceniających zgodność między wieloma oceniającymi (inter-rater reliability). Została opracowana przez Klausa Krippendorffa i jest szeroko stosowana w naukach społecznych, analizie treści oraz ocenie modeli AI.
Jak działa Krippendorff's Alpha?
Alfa oblicza, w jakim stopniu zgodność obserwowana między oceniającymi jest większa niż zgodność przypadkowa. W przeciwieństwie do Kappa Cohena, Krippendorff's Alpha:
- Radzi sobie z dowolną liczbą oceniających
- Obsługuje brakujące dane
- Działa dla różnych typów skal (nominalna, porządkowa, interwałowa, ilorazowa)
- Jest bardziej konserwatywna i dokładna
Zastosowania w AI
- Ocena jakości anotacji danych treningowych
- Porównywanie odpowiedzi różnych modeli LLM
- Ewaluacja Human-in-the-Loop systemów
- Analiza zgodności etykiet w zadaniach klasyfikacji i generowania tekstu
- Badania nad biasem i rzetelnością modeli
Interpretacja wyników
- α ≥ 0.8 — bardzo dobra zgodność
- 0.67 ≤ α < 0.8 — akceptowalna zgodność
- α < 0.67 — niska zgodność (dane wymagają poprawy)
Zalety i wady
- Zalety: bardzo elastyczna, uwzględnia brakujące dane, dokładniejsza niż Kappa
- Wady: bardziej skomplikowana obliczeniowo, trudniejsza interpretacja dla początkujących
Powiązane pojęcia
Inter-rater Reliability • Cohen's Kappa • Fleiss' Kappa • Content Analysis • Human Evaluation • LLM Evaluation • Data Annotation • Statistical Agreement