Interpretability

Wprowadzenie

Interpretability (Interpretowalność) to zdolność zrozumienia i wyjaśnienia, w jaki sposób model sztucznej inteligencji podejmuje decyzje. Jest kluczowym elementem Explainable AI (XAI) i odpowiada na pytanie „dlaczego model dał taką, a nie inną odpowiedź”.

Główne poziomy interpretowalności

  • Global Interpretability – zrozumienie całego modelu
  • Local Interpretability – wyjaśnienie pojedynczej predykcji
  • Post-hoc Interpretability – wyjaśnienia po wytrenowaniu modelu
  • Intrinsic Interpretability – modele przezroczyste z natury (drzewa decyzyjne, regresja liniowa)

Interpretability w dużych modelach językowych

W LLM interpretowalność obejmuje:

  • Mechanistic Interpretability (badanie neuronów i circuitów)
  • Attention Visualization (mapy uwagi)
  • Feature Attribution (SHAP, Integrated Gradients)
  • Probing classifiers
  • Activation patching i causal tracing

Najpopularniejsze metody (2026)

  • SHAP (SHapley Additive exPlanations)
  • LIME (Local Interpretable Model-agnostic Explanations)
  • Attention Rollout i Transformer Interpretability
  • Mechanistic Interpretability (np. badania Anthropic i DeepMind)
  • Concept Activation Vectors (CAV)
  • Counterfactual Explanations

Dlaczego interpretowalność jest kluczowa?

  • Zgodność z regulacjami (AI Act, GDPR)
  • Debugowanie i poprawa modeli
  • Budowanie zaufania użytkowników
  • Wykrywanie biasów i hallucynacji
  • Bezpieczeństwo krytycznych systemów AI

Powiązane pojęcia

Explainable AI (XAI) • Explainability • Black Box • Mechanistic Interpretability • SHAP • LIME • Attention Visualization • AI Governance • Transparency • AI Act

Dodano: 21.05.2026