Wprowadzenie
R-Squared (R²), zwany także współczynnikiem determinacji, to jedna z najpopularniejszych metryk statystycznych używanych do oceny jakości modeli regresyjnych. Mówi nam, jaki procent wariancji zmiennej zależnej (y) jest wyjaśniany przez model regresji.
Interpretacja wartości R²
- R² = 1.0 → model idealnie dopasowany do danych (wszystka wariancja wyjaśniona)
- R² = 0.0 → model nie wyjaśnia żadnej wariancji (równy jest modelowi średniej)
- R² < 0 → model gorszy niż proste przewidywanie średniej (rzadko spotykane po poprawnej implementacji)
Matematyczna definicja
R² = 1 − (SSres / SStot)
Gdzie:
- SSres (Residual Sum of Squares) – suma kwadratów reszt (błędów modelu)
- SStot (Total Sum of Squares) – suma kwadratów odchyleń od średniej
Adjusted R² (Skorygowany R²)
Zwykły R² ma wadę – rośnie wraz z dodawaniem kolejnych zmiennych niezależnych, nawet jeśli nie są one istotne. Dlatego w praktyce częściej używa się Adjusted R², który uwzględnia liczbę predyktorów i rozmiar próbki:
Adjusted R² = 1 − [(1 − R²)·(n − 1) / (n − k − 1)]
Gdzie n – liczba obserwacji, k – liczba predyktorów.
Zalety R²
- Intuicyjna interpretacja (procent wyjaśnionej wariancji)
- Łatwość obliczenia i porównywania modeli
- Standard w statystyce i uczeniu maszynowym
Ograniczenia
- Nie mówi nic o tym, czy model jest poprawny (może być wysoki przy overfittingu)
- Czuły na wartości odstające
- Nie nadaje się do porównywania modeli na różnych zbiorach danych
- Wielowymiarowe R² może być mylące
- Nie ocenia predykcji na nowych danych (dlatego lepiej używać RMSE, MAE lub walidacji krzyżowej)
Zastosowania
- Ekonomia i finanse (modelowanie cen, zwrotów)
- Medycyna (predykcja ciśnienia, poziomu cukru)
- Marketing (prognozowanie sprzedaży)
- Analiza naukowa i badania empiryczne
- Ocena modeli regresji liniowej, drzew regresyjnych, Random Forest, XGBoost, sieci neuronowych itp.
Aktualny status (2026)
R² nadal pozostaje podstawową metryką w regresji i jest raportowana w prawie każdym narzędziu (scikit-learn, statsmodels, R, Excel, Power BI). W erze uczenia maszynowego uzupełnia się ją o metryki takie jak RMSE, MAE, MAPE oraz walidację krzyżową. Adjusted R² jest szczególnie ceniony w modelach statystycznych, a w zaawansowanym ML często patrzy się na kombinację wielu metryk.