Wprowadzenie
Capability Evaluation to systematyczny proces testowania, mierzenia i dokumentowania rzeczywistych zdolności modeli sztucznej inteligencji. W przeciwieństwie do tradycyjnych benchmarków, które mierzą głównie „średnią wydajność”, capability evaluation skupia się na tym, co model naprawdę potrafi zrobić – w tym na zdolnościach niebezpiecznych.
Dlaczego jest tak ważna?
- Pozwala śledzić rzeczywisty postęp w kierunku AGI i ASI
- Jest podstawą do oceny ryzyka AI (AI Risk Assessment)
- Pomaga wykrywać niebezpieczne zdolności (dangerous capabilities) zanim staną się one problemem
- Umożliwia regulacjom i firmom podejmowanie świadomych decyzji
Popularne benchmarki i testy
- MMLU – Massive Multitask Language Understanding
- GPQA – Graduate-Level Google-Proof Q&A
- HumanEval / SWE-Bench – testy programistyczne
- ARC-AGI – test abstrakcyjnego rozumowania
- AgentBench / WebArena – testy agentów autonomicznych
- Dangerous Capabilities Evaluations – testy na zdolności do tworzenia broni, oszustw, manipulacji
Typy Capability Evaluation
- General Capabilities – szeroka wiedza i rozumowanie
- Specialized Capabilities – matematyka, kodowanie, medycyna, prawo
- Agentic Capabilities – planowanie, wieloetapowe zadania, korzystanie z narzędzi
- Dangerous Capabilities – zdolności do szkodliwych działań (biologia, cyber, manipulacja)
Aktualny stan (2026)
Organizacje takie jak METR, Apollo Research, Anthropic, OpenAI, DeepMind i UK AI Safety Institute regularnie przeprowadzają zaawansowane capability evaluations. Coraz większy nacisk kładzie się na ocenę zdolności agentycznych i ryzyk egzystencjalnych.
Powiązane pojęcia
Benchmarking • MMLU • GPQA • ARC-AGI • Dangerous Capabilities • AI Risk Assessment • Scaling Laws • AGI Evaluation • Red Teaming
Dodano: 16 maja 2026