Wprowadzenie
Decision Tree (drzewo decyzyjne) to jeden z najbardziej intuicyjnych i interpretowalnych algorytmów uczenia maszynowego. Działa na zasadzie zadawania serii pytań decyzyjnych, tworząc strukturę przypominającą drzewo, gdzie każdy węzeł wewnętrzny to warunek, gałęzie to decyzje „tak/nie”, a liście to ostateczna predykcja.
Jak działa Decision Tree?
Algorytm rekurencyjnie dzieli zbiór danych na podzbiory, wybierając w każdym kroku cechę i wartość podziału, która najlepiej separuje dane (minimalizuje zanieczyszczenie lub wariancję). Najczęściej używane kryteria to:
- Gini Impurity lub Entropy (Information Gain) – w zadaniach klasyfikacji
- Mean Squared Error (MSE) lub MAE – w zadaniach regresji
Zalety Decision Tree
- Wyjątkowa interpretowalność – drzewo można narysować i wyjaśnić nawet osobom nietechnicznym
- Nie wymaga normalizacji ani skalowania danych
- Automatycznie obsługuje cechy mieszane (numeryczne i kategoryczne)
- Radzi sobie z brakującymi wartościami
- Podstawa wielu zaawansowanych ensemble’ów (Random Forest, Gradient Boosting)
Ograniczenia
- Łatwo ulega overfittingowi (szczególnie głębokie drzewa)
- Niesta bilność – małe zmiany w danych mogą znacząco zmienić strukturę drzewa
- Problemy z aproksymacją zależności liniowych
- Słaba generalizacja w porównaniu do ensemble’ów
Popularne ulepszenia
- Pruning – przycinanie drzewa po wyrośnięciu
- Random Forest – bagging wielu drzew
- Gradient Boosting – XGBoost, LightGBM, CatBoost
Zastosowania
- Systemy wsparcia decyzyjnego w biznesie i medycynie
- Scoring kredytowy i ocena ryzyka
- Segmentacja klientów
- Diagnostyka medyczna (drzewa decyzyjne są łatwe do zrozumienia przez lekarzy)
- Analiza danych w dziedzinach regulowanych, gdzie wymagana jest explainability
Aktualny status (2026)
Pojedyncze drzewa decyzyjne rzadko są używane samodzielnie w zastosowaniach produkcyjnych ze względu na słabą generalizację. Jednak pozostają one fundamentem najpopularniejszych i najskuteczniejszych algorytmów na danych tabelarycznych – Random Forest oraz Gradient Boosting (XGBoost, LightGBM, CatBoost). Ze względu na wysoką interpretowalność, drzewa decyzyjne są nadal bardzo cenione w branżach regulowanych (bankowość, ubezpieczenia, medycyna), gdzie wyjaśnialność modelu jest wymagana prawnie.