Boosting

Wprowadzenie

Boosting to technika ensemble learning, w której wiele słabych modeli (zwykle drzew decyzyjnych) jest trenowanych sekwencyjnie. Każdy kolejny model skupia się na poprawieniu błędów poprzedników, co prowadzi do bardzo wysokiej dokładności.

Jak działa Boosting?

  • Pierwszy model uczy się na danych
  • Kolejne modele dostają większe wagi na przykładach, na których poprzednie modele się myliły
  • Ostateczna predykcja to ważona suma wszystkich modeli

Popularne implementacje Boostingu

  • AdaBoost – Adaptive Boosting (pierwszy popularny)
  • Gradient Boosting – najpopularniejsza rodzina
  • XGBoost – ekstremalnie popularny i bardzo szybki
  • LightGBM – najszybszy na dużych zbiorach danych
  • CatBoost – najlepszy do danych kategorycznych

Zalety Boostingu

  • Bardzo wysoka dokładność – często wygrywa konkursy Kaggle
  • Dobrze radzi sobie z danymi mieszanymi i brakującymi wartościami
  • Automatyczna selekcja cech
  • Możliwość interpretacji (feature importance)

Wady

  • Łatwo przeucza się (overfitting) przy braku regularyzacji
  • Dłuższy czas treningu niż Random Forest
  • Trudniejszy do zrównoleglenia niż bagging

Aktualny status (2026)

Boosting (szczególnie Gradient Boosting) nadal pozostaje jednym z najskuteczniejszych narzędzi do zadań tabelarycznych (tabular data). W połączeniu z nowymi technikami (np. Deep Learning + Boosting, TabNet, FT-Transformer) jest szeroko stosowany w przemyśle, finansach, medycynie i rekomendacjach.

Powiązane pojęcia

Gradient Boosting • XGBoost • LightGBM • CatBoost • Random Forest • Ensemble Learning • Tabular Data