Wprowadzenie
Mechanistic Interpretability to dziedzina badań nad sztuczną inteligencją, której celem jest zrozumienie modeli AI „od środka” – na poziomie pojedynczych neuronów, obwodów i mechanizmów obliczeniowych. Zamiast traktować model jako czarną skrzynkę, staramy się reverse-engineerować, jak dokładnie przetwarza informacje.
Dlaczego jest ważna?
Im większe i potężniejsze stają się modele, tym bardziej stają się nieprzejrzyste. Mechanistic Interpretability ma pomóc w:
- Zrozumieniu, dlaczego model popełnia błędy
- Wykrywaniu i usuwaniu niebezpiecznych zachowań
- Poprawie bezpieczeństwa i alignmentu AI
- Odkryciu nowych zasad działania inteligencji
- Tworzeniu bardziej niezawodnych i kontrolowalnych systemów
Podstawowe koncepcje
- Features – sensowne pojęcia reprezentowane przez model (np. „fakt o Paryżu”, „ton sarkazmu”)
- Polysemantic neurons – neurony kodujące wiele różnych pojęć jednocześnie (efekt superposition)
- Circuits – grupy neuronów współpracujące ze sobą w celu wykonania konkretnego zadania
- Superposition – model kompresuje więcej cech niż ma wymiarów
Główne metody badawcze
- Activation Patching – testowanie wpływu konkretnych aktywacji na wyjście
- Logit Lens / Tuned Lens – odczytywanie predykcji na wczesnych warstwach
- Sparse Autoencoders (SAE) – rozkładanie aktywacji na monosemantyczne features
- Dictionary Learning
- Mechanistic anomaly detection
Przełomowe prace i odkrycia
- 2021–2022 – prace Anthropic („Transformer Circuits Thread”)
- Induction Heads – mechanizm odpowiedzialny za in-context learning
- Grokking – nagłe zrozumienie algorytmu przez model
- 2024–2026 – rozwój Sparse Autoencoders i skalowalnych metod interpretacji
Zalety i wyzwania
- Zalety: głębokie zrozumienie, możliwość precyzyjnej edycji modelu, lepszy alignment
- Wyzwania: ekstremalnie trudne skalowanie do największych modeli, ogromna złożoność, brak uniwersalnej metodologii
Aktualny status (2026)
Mechanistic Interpretability jest jedną z najszybciej rozwijających się dziedzin badań nad AI. Laboratoria takie jak Anthropic, DeepMind, Redwood Research i niezależni badacze osiągają coraz większe sukcesy w dekompilowaniu modeli. Dzięki Sparse Autoencoders udało się odkryć setki tysięcy czytelnych features w modelach takich jak Claude 3 i GPT-4o. W 2026 roku interpretowalność mechanistyczna jest uważana za jeden z najważniejszych kroków na drodze do bezpiecznego AGI.
To dziedzina, która ma szansę zmienić AI z magicznej czarnej skrzynki w system, który naprawdę rozumiemy.