Gradient Boosting

Wprowadzenie

Gradient Boosting to technika uczenia zespołowego (ensemble learning), w której słabe modele (zazwyczaj drzewa decyzyjne) są budowane sekwencyjnie. Każdy kolejny model koryguje błędy poprzedników, minimalizując funkcję straty za pomocą jej gradientu. Jest to jedna z najskuteczniejszych metod w uczeniu maszynowym, szczególnie na danych tabelarycznych.

Jak działa Gradient Boosting?

Algorytm działa w następujący sposób:

  1. Trenujemy pierwszy słaby model (np. drzewo decyzyjne).
  2. Obliczamy błąd (residuals) – różnicę między predykcją a wartością rzeczywistą.
  3. Trenujemy kolejny model, który ma za zadanie przewidywać te błędy (gradient funkcji straty).
  4. Dodajemy nowy model do zespołu z odpowiednim współczynnikiem uczenia.
  5. Powtarzamy proces aż do osiągnięcia założonej liczby modeli lub kryterium stopu.

Popularne implementacje

  • XGBoost – jedna z najpopularniejszych bibliotek, zwycięzca wielu konkursów Kaggle
  • LightGBM – bardzo szybki, świetny na dużych zbiorach danych
  • CatBoost – doskonała obsługa danych kategorycznych „out-of-the-box”
  • HistGradientBoosting (scikit-learn)

Zalety Gradient Boosting

  • Wyjątkowo wysoka dokładność na danych tabelarycznych
  • Automatyczne wykrywanie interakcji między cechami
  • Wbudowane mechanizmy regularizacji (zmniejszają overfitting)
  • Możliwość uzyskania ważności cech
  • Działa zarówno na klasyfikację, jak i regresję

Ograniczenia

  • Trudniejszy w dostrajaniu hiperparametrów niż Random Forest
  • Dłuższy czas treningu przy bardzo dużych zbiorach (choć LightGBM i XGBoost radzą sobie dobrze)
  • Mniejsza interpretowalność niż pojedyncze drzewo
  • Wrażliwość na szum w danych

Gradient Boosting vs Random Forest

  • Random Forest – bagging (równoległe budowanie drzew)
  • Gradient Boosting – boosting (sekwencyjne budowanie drzew)
  • Boosting zazwyczaj daje wyższą dokładność, ale jest bardziej narażony na overfitting

Aktualny status (2026)

Gradient Boosting nadal dominuje w zadaniach na danych tabelarycznych (tabular data). Biblioteki XGBoost, LightGBM i CatBoost są standardem w przemyśle, bankowości, ubezpieczeniach, marketingu i konkursach ML. Mimo rozwoju sieci neuronowych i dużych modeli językowych, dla większości problemów biznesowych opartych na danych strukturalnych Gradient Boosting pozostaje najskuteczniejszym i najbardziej praktycznym wyborem.