Wprowadzenie
XGBoost (eXtreme Gradient Boosting) to zoptymalizowana i rozszerzona implementacja Gradient Boosting, stworzona przez Tianqi Chen w 2014 roku. Szybko stała się standardem w konkursach Kaggle.
Główne zalety XGBoost
- Bardzo wysoka wydajność i dokładność
- Wbudowana regularyzacja (L1 + L2)
- Obsługa brakujących wartości
- Paralelizacja i efektywne wykorzystanie pamięci
- Feature importance i interpretowalność
- Możliwość kontynuacji treningu
Kluczowe parametry
- n_estimators – liczba drzew
- learning_rate – krok uczenia
- max_depth – maksymalna głębokość drzewa
- subsample, colsample_bytree – losowość
- gamma, lambda, alpha – regularyzacja
XGBoost vs LightGBM vs CatBoost
XGBoost – najbardziej uniwersalny
LightGBM – szybszy na dużych danych
CatBoost – najlepszy do danych z wieloma kategoriami