LightGBM

Wprowadzenie

LightGBM (Light Gradient Boosting Machine) to framework Gradient Boosting stworzony przez Microsoft w 2017 roku. Został zaprojektowany z myślą o wysokiej wydajności, niskim zużyciu pamięci i obsłudze dużych zbiorów danych – często przewyższa XGBoost pod względem prędkości treningu przy zachowaniu podobnej lub lepszej dokładności.

Główne innowacje

  • Histogram-based splitting – zamiast sortowania wszystkich wartości, buduje histogramy (znacznie szybsze)
  • Leaf-wise tree growth – zamiast level-wise, rozwija najgłębszy liść (lepsza redukcja błędu przy mniejszej liczbie liści)
  • GOSS (Gradient-based One-Side Sampling) – skupia się na przykładach z największym gradientem
  • EFB (Exclusive Feature Bundling) – łączy rzadkie cechy, redukując wymiarowość

Zalety LightGBM

  • Bardzo szybki trening (często 2–10× szybszy niż XGBoost)
  • Niskie zużycie pamięci RAM
  • Natywna obsługa kategorii (categorical features)
  • Doskonała obsługa dużych zbiorów danych
  • Wbudowane mechanizmy regularizacji i early stopping
  • Obsługa GPU

Porównanie z innymi frameworkami

  • XGBoost – bardziej stabilny, ale wolniejszy i bardziej pamięciochłonny
  • CatBoost – lepsza obsługa kategorii „out-of-the-box”, ale wolniejszy
  • LightGBM – najlepszy kompromis prędkość/jakość w większości konkursów Kaggle i zastosowań produkcyjnych

Typowe parametry

  • num_leaves – liczba liści w drzewie (kluczowy hiperparametr)
  • learning_rate
  • n_estimators / num_iterations
  • max_depth – ograniczenie głębokości (często zostawia się -1 = bez limitu)
  • feature_fraction, bagging_fraction – techniki samplingowe

Zastosowania

  • Predykcja churnu klientów
  • Wykrywanie fraudów
  • Prognozowanie sprzedaży i cen
  • Ranking (np. rekomendacje)
  • Analiza ryzyka kredytowego
  • Konkursy ML (Kaggle, DrivenData)

Aktualny status (2026)

LightGBM nadal pozostaje jednym z najpopularniejszych narzędzi w przemyśle i konkursach ML. Mimo rozwoju sieci neuronowych i dużych modeli językowych, dla tabular data (dane tabelaryczne) LightGBM, XGBoost i CatBoost nadal są najczęściej wybieranymi rozwiązaniami. Biblioteka jest regularnie rozwijana, ma świetne wsparcie GPU i jest zintegrowana z ekosystemem Python (scikit-learn API, Optuna, MLflow).

Jeśli pracujesz z danymi tabelarycznymi i potrzebujesz wysokiej wydajności – LightGBM to często najlepszy wybór.