Wprowadzenie
Z-Score (zwany też Standard Score) to statystyczna miara, która mówi, ile odchyleń standardowych dana wartość znajduje się od średniej arytmetycznej zbioru danych. Jest jednym z najważniejszych narzędzi w analizie danych i uczeniu maszynowym.
Wzór Z-Score
Z-Score oblicza się według wzoru:
Z = (X − μ) / σ
gdzie:
- X – wartość obserwowana
- μ – średnia arytmetyczna
- σ – odchylenie standardowe
Zastosowania Z-Score w AI i Data Science
- Standaryzacja danych (Feature Scaling)
- Detekcja anomalii i outlierów
- Porównywanie wartości z różnych rozkładów
- Przygotowanie danych do modeli (np. regresja logistyczna, SVM, sieci neuronowe)
- Ocena wyników modeli (np. w testach statystycznych)
Interpretacja wyników
- Z = 0 → wartość równa średniej
- Z = 1 → wartość o 1 odchylenie standardowe powyżej średniej
- Z = -2 → wartość o 2 odchylenia poniżej średniej
- |Z| > 3 → bardzo rzadkie wartości (często traktowane jako anomalie)
Zalety i wady
- Zalety: zachowuje rozkład danych, przydatny przy rozkładach normalnych, łatwy do interpretacji
- Wady: wrażliwy na outliery, nie działa dobrze przy rozkładach silnie skośnych
Najlepsze praktyki (2026)
- Stosowanie Z-Score przed algorytmami wrażliwymi na skalę (np. KNN, PCA, Neural Networks)
- Łączenie z Robust Scaling przy danych z dużą liczbą outlierów
- Używanie w pipeline’ach scikit-learn (StandardScaler)
- Sprawdzanie rozkładu danych przed standaryzacją
Powiązane pojęcia
StandardScalerFeature ScalingOutlier DetectionNormal DistributionMin-Max ScalingData PreprocessingAnomaly Detection→