Wprowadzenie
Boosting to technika ensemble learning, w której wiele słabych modeli (zwykle drzew decyzyjnych) jest trenowanych sekwencyjnie. Każdy kolejny model skupia się na poprawieniu błędów poprzedników, co prowadzi do bardzo wysokiej dokładności.
Jak działa Boosting?
- Pierwszy model uczy się na danych
- Kolejne modele dostają większe wagi na przykładach, na których poprzednie modele się myliły
- Ostateczna predykcja to ważona suma wszystkich modeli
Popularne implementacje Boostingu
- AdaBoost – Adaptive Boosting (pierwszy popularny)
- Gradient Boosting – najpopularniejsza rodzina
- XGBoost – ekstremalnie popularny i bardzo szybki
- LightGBM – najszybszy na dużych zbiorach danych
- CatBoost – najlepszy do danych kategorycznych
Zalety Boostingu
- Bardzo wysoka dokładność – często wygrywa konkursy Kaggle
- Dobrze radzi sobie z danymi mieszanymi i brakującymi wartościami
- Automatyczna selekcja cech
- Możliwość interpretacji (feature importance)
Wady
- Łatwo przeucza się (overfitting) przy braku regularyzacji
- Dłuższy czas treningu niż Random Forest
- Trudniejszy do zrównoleglenia niż bagging
Aktualny status (2026)
Boosting (szczególnie Gradient Boosting) nadal pozostaje jednym z najskuteczniejszych narzędzi do zadań tabelarycznych (tabular data). W połączeniu z nowymi technikami (np. Deep Learning + Boosting, TabNet, FT-Transformer) jest szeroko stosowany w przemyśle, finansach, medycynie i rekomendacjach.
Powiązane pojęcia
Gradient Boosting • XGBoost • LightGBM • CatBoost • Random Forest • Ensemble Learning • Tabular Data