Wprowadzenie
Interpretability (Interpretowalność) to zdolność zrozumienia i wyjaśnienia, w jaki sposób model sztucznej inteligencji podejmuje decyzje. Jest kluczowym elementem Explainable AI (XAI) i odpowiada na pytanie „dlaczego model dał taką, a nie inną odpowiedź”.
Główne poziomy interpretowalności
- Global Interpretability – zrozumienie całego modelu
- Local Interpretability – wyjaśnienie pojedynczej predykcji
- Post-hoc Interpretability – wyjaśnienia po wytrenowaniu modelu
- Intrinsic Interpretability – modele przezroczyste z natury (drzewa decyzyjne, regresja liniowa)
Interpretability w dużych modelach językowych
W LLM interpretowalność obejmuje:
- Mechanistic Interpretability (badanie neuronów i circuitów)
- Attention Visualization (mapy uwagi)
- Feature Attribution (SHAP, Integrated Gradients)
- Probing classifiers
- Activation patching i causal tracing
Najpopularniejsze metody (2026)
- SHAP (SHapley Additive exPlanations)
- LIME (Local Interpretable Model-agnostic Explanations)
- Attention Rollout i Transformer Interpretability
- Mechanistic Interpretability (np. badania Anthropic i DeepMind)
- Concept Activation Vectors (CAV)
- Counterfactual Explanations
Dlaczego interpretowalność jest kluczowa?
- Zgodność z regulacjami (AI Act, GDPR)
- Debugowanie i poprawa modeli
- Budowanie zaufania użytkowników
- Wykrywanie biasów i hallucynacji
- Bezpieczeństwo krytycznych systemów AI
Powiązane pojęcia
Explainable AI (XAI) • Explainability • Black Box • Mechanistic Interpretability • SHAP • LIME • Attention Visualization • AI Governance • Transparency • AI Act