Wprowadzenie
Decision Tree (Drzewo Decyzyjne) to jeden z najbardziej intuicyjnych i popularnych algorytmów uczenia maszynowego. Działa jak seria pytań „tak/nie”, prowadząc do ostatecznej decyzji lub prognozy.
Jak działa drzewo decyzyjne?
Drzewo składa się z:
- Węzłów decyzyjnych – miejsca, w których zadawane jest pytanie
- Gałęzi – możliwych odpowiedzi (tak/nie lub wartości)
- Liści – końcowych decyzji lub prognoz
Miary podziału (splitting criteria)
- Entropy + Information Gain (ID3, C4.5)
- Gini Impurity (CART – najpopularniejszy)
- Reduction in Variance (dla regresji)
Zalety Decision Tree
- Bardzo łatwa interpretacja (można narysować)
- Nie wymaga normalizacji danych
- Obsługuje zarówno dane numeryczne, jak i kategoryczne
- Automatycznie dokonuje selekcji cech
- Działa dobrze na nieliniowych zależnościach
Wady Decision Tree
- Silna tendencja do przeuczenia (overfitting)
- Niestabilność – małe zmiany w danych mogą zmienić całe drzewo
- Problemy z ciągłymi wartościami (trzeba je dyskretyzować)
- Słaba generalizacja bez regularyzacji
Popularne ulepszenia
- Random Forest – wiele drzew + głosowanie
- Gradient Boosting (XGBoost, LightGBM, CatBoost)
- Pruning – przycinanie drzewa
Zastosowania
- Systemy rekomendacyjne
- Diagnostyka medyczna
- Klasyfikacja klientów (churn prediction)
- Analiza ryzyka kredytowego
- Detekcja oszustw
Powiązane pojęcia
Random Forest→Gradient Boosting→XGBoost→EntropyGini ImpurityOverfitting→PruningMachine Learning→CART→