Z-Score

Wprowadzenie

Z-Score (zwany również wynikiem standaryzowanym lub wynikiem z) to podstawowa miara statystyczna, która określa, o ile odchyleń standardowych dana wartość różni się od średniej arytmetycznej rozkładu.

Formuła

Z = (X - μ) / σ

gdzie:
X — obserwowana wartość
μ — średnia arytmetyczna
σ — odchylenie standardowe

Interpretacja wyników

  • Z = 0 — wartość dokładnie równa średniej
  • Z = 1 — jeden odchylenie standardowe powyżej średniej
  • Z = -2 — dwa odchylenia standardowe poniżej średniej
  • |Z| ≥ 3 — wartość ekstremalna (rzadka w rozkładzie normalnym)

Zastosowania Z-Score

  • Standaryzacja danych wejściowych w uczeniu maszynowym
  • Wykrywanie anomalii i outlierów
  • Porównywanie wyników z różnych populacji lub testów
  • Analiza ryzyka finansowego i scoring kredytowy
  • Medycyna (ocena wyników badań laboratoryjnych)
  • Psychologia i edukacja (testy standaryzowane)

Z-Score w Machine Learning

Jest jedną z najpopularniejszych metod normalizacji cech (implementowana m.in. jakoStandardScaler w bibliotece scikit-learn). Dzięki Z-Score wszystkie cechy mają średnią równą 0 i odchylenie standardowe równe 1, co znacząco poprawia działanie algorytmów opartych na odległościach i gradientach.

Aktualny status (2026)

Z-Score pozostaje nieodzownym elementem preprocessingu danych w data science. Nawet w erze zaawansowanych modeli głębokich nadal jest szeroko stosowany przy przygotowywaniu danych do treningu sieci neuronowych, modeli gradient boostingowych oraz dużych modeli językowych.