Wprowadzenie
Z-Score (zwany również wynikiem standaryzowanym lub wynikiem z) to podstawowa miara statystyczna, która określa, o ile odchyleń standardowych dana wartość różni się od średniej arytmetycznej rozkładu.
Formuła
Z = (X - μ) / σ
gdzie:
• X — obserwowana wartość
• μ — średnia arytmetyczna
• σ — odchylenie standardowe
Interpretacja wyników
- Z = 0 — wartość dokładnie równa średniej
- Z = 1 — jeden odchylenie standardowe powyżej średniej
- Z = -2 — dwa odchylenia standardowe poniżej średniej
- |Z| ≥ 3 — wartość ekstremalna (rzadka w rozkładzie normalnym)
Zastosowania Z-Score
- Standaryzacja danych wejściowych w uczeniu maszynowym
- Wykrywanie anomalii i outlierów
- Porównywanie wyników z różnych populacji lub testów
- Analiza ryzyka finansowego i scoring kredytowy
- Medycyna (ocena wyników badań laboratoryjnych)
- Psychologia i edukacja (testy standaryzowane)
Z-Score w Machine Learning
Jest jedną z najpopularniejszych metod normalizacji cech (implementowana m.in. jakoStandardScaler w bibliotece scikit-learn). Dzięki Z-Score wszystkie cechy mają średnią równą 0 i odchylenie standardowe równe 1, co znacząco poprawia działanie algorytmów opartych na odległościach i gradientach.
Aktualny status (2026)
Z-Score pozostaje nieodzownym elementem preprocessingu danych w data science. Nawet w erze zaawansowanych modeli głębokich nadal jest szeroko stosowany przy przygotowywaniu danych do treningu sieci neuronowych, modeli gradient boostingowych oraz dużych modeli językowych.