Decision Tree | Encyklopedia AI

Wprowadzenie

Decision Tree (drzewo decyzyjne) to jeden z najbardziej intuicyjnych i interpretowalnych algorytmów uczenia maszynowego. Działa na zasadzie zadawania serii pytań decyzyjnych, tworząc strukturę przypominającą drzewo, gdzie każdy węzeł wewnętrzny to warunek, gałęzie to decyzje „tak/nie”, a liście to ostateczna predykcja.

Jak działa Decision Tree?

Algorytm rekurencyjnie dzieli zbiór danych na podzbiory, wybierając w każdym kroku cechę i wartość podziału, która najlepiej separuje dane (minimalizuje zanieczyszczenie lub wariancję). Najczęściej używane kryteria to:

Gini Impurity lub Entropy (Information Gain) – w zadaniach klasyfikacji
Mean Squared Error (MSE) lub MAE – w zadaniach regresji

Zalety Decision Tree

Wyjątkowa interpretowalność – drzewo można narysować i wyjaśnić nawet osobom nietechnicznym
Nie wymaga normalizacji ani skalowania danych
Automatycznie obsługuje cechy mieszane (numeryczne i kategoryczne)
Radzi sobie z brakującymi wartościami
Podstawa wielu zaawansowanych ensemble’ów (Random Forest, Gradient Boosting)

Ograniczenia

Łatwo ulega overfittingowi (szczególnie głębokie drzewa)
Niesta bilność – małe zmiany w danych mogą znacząco zmienić strukturę drzewa
Problemy z aproksymacją zależności liniowych
Słaba generalizacja w porównaniu do ensemble’ów

Popularne ulepszenia

Pruning – przycinanie drzewa po wyrośnięciu
Random Forest – bagging wielu drzew
Gradient Boosting – XGBoost, LightGBM, CatBoost

Zastosowania

Systemy wsparcia decyzyjnego w biznesie i medycynie
Scoring kredytowy i ocena ryzyka
Segmentacja klientów
Diagnostyka medyczna (drzewa decyzyjne są łatwe do zrozumienia przez lekarzy)
Analiza danych w dziedzinach regulowanych, gdzie wymagana jest explainability

Aktualny status (2026)

Pojedyncze drzewa decyzyjne rzadko są używane samodzielnie w zastosowaniach produkcyjnych ze względu na słabą generalizację. Jednak pozostają one fundamentem najpopularniejszych i najskuteczniejszych algorytmów na danych tabelarycznych – Random Forest oraz Gradient Boosting (XGBoost, LightGBM, CatBoost). Ze względu na wysoką interpretowalność, drzewa decyzyjne są nadal bardzo cenione w branżach regulowanych (bankowość, ubezpieczenia, medycyna), gdzie wyjaśnialność modelu jest wymagana prawnie.