Krippendorff's Alpha

Wprowadzenie

Krippendorff's Alpha (α) to jedna z najbardziej wszechstronnych miar statystycznych oceniających zgodność między wieloma oceniającymi (inter-rater reliability). Została opracowana przez Klausa Krippendorffa i jest szeroko stosowana w naukach społecznych, analizie treści oraz ocenie modeli AI.

Jak działa Krippendorff's Alpha?

Alfa oblicza, w jakim stopniu zgodność obserwowana między oceniającymi jest większa niż zgodność przypadkowa. W przeciwieństwie do Kappa Cohena, Krippendorff's Alpha:

  • Radzi sobie z dowolną liczbą oceniających
  • Obsługuje brakujące dane
  • Działa dla różnych typów skal (nominalna, porządkowa, interwałowa, ilorazowa)
  • Jest bardziej konserwatywna i dokładna

Zastosowania w AI

  • Ocena jakości anotacji danych treningowych
  • Porównywanie odpowiedzi różnych modeli LLM
  • Ewaluacja Human-in-the-Loop systemów
  • Analiza zgodności etykiet w zadaniach klasyfikacji i generowania tekstu
  • Badania nad biasem i rzetelnością modeli

Interpretacja wyników

  • α ≥ 0.8 — bardzo dobra zgodność
  • 0.67 ≤ α < 0.8 — akceptowalna zgodność
  • α < 0.67 — niska zgodność (dane wymagają poprawy)

Zalety i wady

  • Zalety: bardzo elastyczna, uwzględnia brakujące dane, dokładniejsza niż Kappa
  • Wady: bardziej skomplikowana obliczeniowo, trudniejsza interpretacja dla początkujących

Powiązane pojęcia

Inter-rater Reliability • Cohen's Kappa • Fleiss' Kappa • Content Analysis • Human Evaluation • LLM Evaluation • Data Annotation • Statistical Agreement