Decision Tree

Wprowadzenie

Decision Tree (drzewo decyzyjne) to jeden z najbardziej intuicyjnych i interpretowalnych algorytmów uczenia maszynowego. Działa na zasadzie zadawania serii pytań decyzyjnych, tworząc strukturę przypominającą drzewo, gdzie każdy węzeł wewnętrzny to warunek, gałęzie to decyzje „tak/nie”, a liście to ostateczna predykcja.

Jak działa Decision Tree?

Algorytm rekurencyjnie dzieli zbiór danych na podzbiory, wybierając w każdym kroku cechę i wartość podziału, która najlepiej separuje dane (minimalizuje zanieczyszczenie lub wariancję). Najczęściej używane kryteria to:

  • Gini Impurity lub Entropy (Information Gain) – w zadaniach klasyfikacji
  • Mean Squared Error (MSE) lub MAE – w zadaniach regresji

Zalety Decision Tree

  • Wyjątkowa interpretowalność – drzewo można narysować i wyjaśnić nawet osobom nietechnicznym
  • Nie wymaga normalizacji ani skalowania danych
  • Automatycznie obsługuje cechy mieszane (numeryczne i kategoryczne)
  • Radzi sobie z brakującymi wartościami
  • Podstawa wielu zaawansowanych ensemble’ów (Random Forest, Gradient Boosting)

Ograniczenia

  • Łatwo ulega overfittingowi (szczególnie głębokie drzewa)
  • Niesta bilność – małe zmiany w danych mogą znacząco zmienić strukturę drzewa
  • Problemy z aproksymacją zależności liniowych
  • Słaba generalizacja w porównaniu do ensemble’ów

Popularne ulepszenia

  • Pruning – przycinanie drzewa po wyrośnięciu
  • Random Forest – bagging wielu drzew
  • Gradient Boosting – XGBoost, LightGBM, CatBoost

Zastosowania

  • Systemy wsparcia decyzyjnego w biznesie i medycynie
  • Scoring kredytowy i ocena ryzyka
  • Segmentacja klientów
  • Diagnostyka medyczna (drzewa decyzyjne są łatwe do zrozumienia przez lekarzy)
  • Analiza danych w dziedzinach regulowanych, gdzie wymagana jest explainability

Aktualny status (2026)

Pojedyncze drzewa decyzyjne rzadko są używane samodzielnie w zastosowaniach produkcyjnych ze względu na słabą generalizację. Jednak pozostają one fundamentem najpopularniejszych i najskuteczniejszych algorytmów na danych tabelarycznych – Random Forest oraz Gradient Boosting (XGBoost, LightGBM, CatBoost). Ze względu na wysoką interpretowalność, drzewa decyzyjne są nadal bardzo cenione w branżach regulowanych (bankowość, ubezpieczenia, medycyna), gdzie wyjaśnialność modelu jest wymagana prawnie.