LightGBM | Encyklopedia AI | Encyklopedia AI

Wprowadzenie

LightGBM (Light Gradient Boosting Machine) to framework Gradient Boosting stworzony przez Microsoft w 2017 roku. Został zaprojektowany z myślą o wysokiej wydajności, niskim zużyciu pamięci i obsłudze dużych zbiorów danych – często przewyższa XGBoost pod względem prędkości treningu przy zachowaniu podobnej lub lepszej dokładności.

Główne innowacje

Histogram-based splitting – zamiast sortowania wszystkich wartości, buduje histogramy (znacznie szybsze)
Leaf-wise tree growth – zamiast level-wise, rozwija najgłębszy liść (lepsza redukcja błędu przy mniejszej liczbie liści)
GOSS (Gradient-based One-Side Sampling) – skupia się na przykładach z największym gradientem
EFB (Exclusive Feature Bundling) – łączy rzadkie cechy, redukując wymiarowość

Zalety LightGBM

Bardzo szybki trening (często 2–10× szybszy niż XGBoost)
Niskie zużycie pamięci RAM
Natywna obsługa kategorii (categorical features)
Doskonała obsługa dużych zbiorów danych
Wbudowane mechanizmy regularizacji i early stopping
Obsługa GPU

Porównanie z innymi frameworkami

XGBoost – bardziej stabilny, ale wolniejszy i bardziej pamięciochłonny
CatBoost – lepsza obsługa kategorii „out-of-the-box”, ale wolniejszy
LightGBM – najlepszy kompromis prędkość/jakość w większości konkursów Kaggle i zastosowań produkcyjnych

Typowe parametry

num_leaves – liczba liści w drzewie (kluczowy hiperparametr)
learning_rate
n_estimators / num_iterations
max_depth – ograniczenie głębokości (często zostawia się -1 = bez limitu)
feature_fraction, bagging_fraction – techniki samplingowe

Zastosowania

Predykcja churnu klientów
Wykrywanie fraudów
Prognozowanie sprzedaży i cen
Ranking (np. rekomendacje)
Analiza ryzyka kredytowego
Konkursy ML (Kaggle, DrivenData)

Aktualny status (2026)

LightGBM nadal pozostaje jednym z najpopularniejszych narzędzi w przemyśle i konkursach ML. Mimo rozwoju sieci neuronowych i dużych modeli językowych, dla tabular data (dane tabelaryczne) LightGBM, XGBoost i CatBoost nadal są najczęściej wybieranymi rozwiązaniami. Biblioteka jest regularnie rozwijana, ma świetne wsparcie GPU i jest zintegrowana z ekosystemem Python (scikit-learn API, Optuna, MLflow).

Jeśli pracujesz z danymi tabelarycznymi i potrzebujesz wysokiej wydajności – LightGBM to często najlepszy wybór.

Powiązane pojęcia

XGBoost→CatBoost→Gradient Boosting→Histogram-based LearningKaggleTabular DataMachine Learning→Early Stopping→