R-Squared (R²)

Wprowadzenie

R-Squared (R²), zwany także współczynnikiem determinacji, to jedna z najpopularniejszych metryk statystycznych używanych do oceny jakości modeli regresyjnych. Mówi nam, jaki procent wariancji zmiennej zależnej (y) jest wyjaśniany przez model regresji.

Interpretacja wartości R²

  • R² = 1.0 → model idealnie dopasowany do danych (wszystka wariancja wyjaśniona)
  • R² = 0.0 → model nie wyjaśnia żadnej wariancji (równy jest modelowi średniej)
  • R² < 0 → model gorszy niż proste przewidywanie średniej (rzadko spotykane po poprawnej implementacji)

Matematyczna definicja

R² = 1 − (SSres / SStot)

Gdzie:

  • SSres (Residual Sum of Squares) – suma kwadratów reszt (błędów modelu)
  • SStot (Total Sum of Squares) – suma kwadratów odchyleń od średniej

Adjusted R² (Skorygowany R²)

Zwykły R² ma wadę – rośnie wraz z dodawaniem kolejnych zmiennych niezależnych, nawet jeśli nie są one istotne. Dlatego w praktyce częściej używa się Adjusted R², który uwzględnia liczbę predyktorów i rozmiar próbki:

Adjusted R² = 1 − [(1 − R²)·(n − 1) / (n − k − 1)]

Gdzie n – liczba obserwacji, k – liczba predyktorów.

Zalety R²

  • Intuicyjna interpretacja (procent wyjaśnionej wariancji)
  • Łatwość obliczenia i porównywania modeli
  • Standard w statystyce i uczeniu maszynowym

Ograniczenia

  • Nie mówi nic o tym, czy model jest poprawny (może być wysoki przy overfittingu)
  • Czuły na wartości odstające
  • Nie nadaje się do porównywania modeli na różnych zbiorach danych
  • Wielowymiarowe R² może być mylące
  • Nie ocenia predykcji na nowych danych (dlatego lepiej używać RMSE, MAE lub walidacji krzyżowej)

Zastosowania

  • Ekonomia i finanse (modelowanie cen, zwrotów)
  • Medycyna (predykcja ciśnienia, poziomu cukru)
  • Marketing (prognozowanie sprzedaży)
  • Analiza naukowa i badania empiryczne
  • Ocena modeli regresji liniowej, drzew regresyjnych, Random Forest, XGBoost, sieci neuronowych itp.

Aktualny status (2026)

R² nadal pozostaje podstawową metryką w regresji i jest raportowana w prawie każdym narzędziu (scikit-learn, statsmodels, R, Excel, Power BI). W erze uczenia maszynowego uzupełnia się ją o metryki takie jak RMSE, MAE, MAPE oraz walidację krzyżową. Adjusted R² jest szczególnie ceniony w modelach statystycznych, a w zaawansowanym ML często patrzy się na kombinację wielu metryk.