Z-Score

Wprowadzenie

Z-Score (zwany też Standard Score) to statystyczna miara, która mówi, ile odchyleń standardowych dana wartość znajduje się od średniej arytmetycznej zbioru danych. Jest jednym z najważniejszych narzędzi w analizie danych i uczeniu maszynowym.

Wzór Z-Score

Z-Score oblicza się według wzoru:

Z = (X − μ) / σ

gdzie:

  • X – wartość obserwowana
  • μ – średnia arytmetyczna
  • σ – odchylenie standardowe

Zastosowania Z-Score w AI i Data Science

  • Standaryzacja danych (Feature Scaling)
  • Detekcja anomalii i outlierów
  • Porównywanie wartości z różnych rozkładów
  • Przygotowanie danych do modeli (np. regresja logistyczna, SVM, sieci neuronowe)
  • Ocena wyników modeli (np. w testach statystycznych)

Interpretacja wyników

  • Z = 0 → wartość równa średniej
  • Z = 1 → wartość o 1 odchylenie standardowe powyżej średniej
  • Z = -2 → wartość o 2 odchylenia poniżej średniej
  • |Z| > 3 → bardzo rzadkie wartości (często traktowane jako anomalie)

Zalety i wady

  • Zalety: zachowuje rozkład danych, przydatny przy rozkładach normalnych, łatwy do interpretacji
  • Wady: wrażliwy na outliery, nie działa dobrze przy rozkładach silnie skośnych

Najlepsze praktyki (2026)

  • Stosowanie Z-Score przed algorytmami wrażliwymi na skalę (np. KNN, PCA, Neural Networks)
  • Łączenie z Robust Scaling przy danych z dużą liczbą outlierów
  • Używanie w pipeline’ach scikit-learn (StandardScaler)
  • Sprawdzanie rozkładu danych przed standaryzacją

Powiązane pojęcia

StandardScalerFeature ScalingOutlier DetectionNormal DistributionMin-Max ScalingData PreprocessingAnomaly Detection