Wprowadzenie
Decision Tree (drzewo decyzyjne) to jeden z najprostszych, najbardziej intuicyjnych i interpretowalnych algorytmów uczenia maszynowego. Działa na zasadzie zadawania serii pytań „tak/nie”, tworząc strukturę przypominającą drzewo, w której każdy węzeł to warunek decyzyjny, a liście to finalna decyzja lub wartość.
Jak działa Decision Tree?
Algorytm rekurencyjnie dzieli dane na coraz mniejsze podzbiory, wybierając za każdym razem cechę i próg podziału, który najlepiej separuje klasy (w klasyfikacji) lub minimalizuje wariancję (w regresji). Najpopularniejsze kryteria to:
- Gini Impurity lub Entropy / Information Gain – w klasyfikacji
- MSE / MAE – w regresji
Zalety Decision Tree
- Bardzo wysoka interpretowalność – drzewo można narysować i zrozumieć
- Nie wymaga skalowania cech
- Automatycznie obsługuje cechy kategoryczne i numeryczne
- Radzi sobie z brakującymi wartościami
- Podstawa wielu potężnych ensemble’ów (Random Forest, XGBoost)
Ograniczenia
- Łatwo ulega overfittingowi (głębokie drzewa)
- Niesta bilność – małe zmiany w danych mogą całkowicie zmienić strukturę drzewa
- Słaba generalizacja w porównaniu do ensemble’ów
- Problemy z danymi liniowo separowalnymi
Popularne ulepszenia
- Random Forest – ensemble wielu drzew (bagging)
- Gradient Boosting (XGBoost, LightGBM, CatBoost) – sekwencyjne budowanie drzew
- Pruning – przycinanie drzewa po wyrośnięciu
Zastosowania
- Systemy decyzyjne w biznesie i medycynie
- Scoring kredytowy
- Analiza ryzyka
- Klasyfikacja klientów
- Interpretowalne modele regulowane (np. bankowość)
Aktualny status (2026)
Pojedyncze drzewa decyzyjne są rzadko używane samodzielnie ze względu na słabą generalizację. Jednak stanowią one fundament najpopularniejszych i najskuteczniejszych algorytmów na danych tabelarycznych – Random Forest oraz Gradient Boosting (XGBoost, LightGBM, CatBoost). Drzewa decyzyjne nadal są cenione za wyjątkową interpretowalność, co jest kluczowe w dziedzinach regulowanych (finanse, medycyna, prawo).