Wprowadzenie
LightGBM (Light Gradient Boosting Machine) to framework Gradient Boosting stworzony przez Microsoft w 2017 roku. Został zaprojektowany z myślą o wysokiej wydajności, niskim zużyciu pamięci i obsłudze dużych zbiorów danych – często przewyższa XGBoost pod względem prędkości treningu przy zachowaniu podobnej lub lepszej dokładności.
Główne innowacje
- Histogram-based splitting – zamiast sortowania wszystkich wartości, buduje histogramy (znacznie szybsze)
- Leaf-wise tree growth – zamiast level-wise, rozwija najgłębszy liść (lepsza redukcja błędu przy mniejszej liczbie liści)
- GOSS (Gradient-based One-Side Sampling) – skupia się na przykładach z największym gradientem
- EFB (Exclusive Feature Bundling) – łączy rzadkie cechy, redukując wymiarowość
Zalety LightGBM
- Bardzo szybki trening (często 2–10× szybszy niż XGBoost)
- Niskie zużycie pamięci RAM
- Natywna obsługa kategorii (categorical features)
- Doskonała obsługa dużych zbiorów danych
- Wbudowane mechanizmy regularizacji i early stopping
- Obsługa GPU
Porównanie z innymi frameworkami
- XGBoost – bardziej stabilny, ale wolniejszy i bardziej pamięciochłonny
- CatBoost – lepsza obsługa kategorii „out-of-the-box”, ale wolniejszy
- LightGBM – najlepszy kompromis prędkość/jakość w większości konkursów Kaggle i zastosowań produkcyjnych
Typowe parametry
- num_leaves – liczba liści w drzewie (kluczowy hiperparametr)
- learning_rate
- n_estimators / num_iterations
- max_depth – ograniczenie głębokości (często zostawia się -1 = bez limitu)
- feature_fraction, bagging_fraction – techniki samplingowe
Zastosowania
- Predykcja churnu klientów
- Wykrywanie fraudów
- Prognozowanie sprzedaży i cen
- Ranking (np. rekomendacje)
- Analiza ryzyka kredytowego
- Konkursy ML (Kaggle, DrivenData)
Aktualny status (2026)
LightGBM nadal pozostaje jednym z najpopularniejszych narzędzi w przemyśle i konkursach ML. Mimo rozwoju sieci neuronowych i dużych modeli językowych, dla tabular data (dane tabelaryczne) LightGBM, XGBoost i CatBoost nadal są najczęściej wybieranymi rozwiązaniami. Biblioteka jest regularnie rozwijana, ma świetne wsparcie GPU i jest zintegrowana z ekosystemem Python (scikit-learn API, Optuna, MLflow).
Jeśli pracujesz z danymi tabelarycznymi i potrzebujesz wysokiej wydajności – LightGBM to często najlepszy wybór.