Capability Evaluation | Encyklopedia AI

Wprowadzenie

Capability Evaluation to systematyczny proces testowania, mierzenia i dokumentowania rzeczywistych zdolności modeli sztucznej inteligencji. W przeciwieństwie do tradycyjnych benchmarków, które mierzą głównie „średnią wydajność”, capability evaluation skupia się na tym, co model naprawdę potrafi zrobić – w tym na zdolnościach niebezpiecznych.

Dlaczego jest tak ważna?

Pozwala śledzić rzeczywisty postęp w kierunku AGI i ASI
Jest podstawą do oceny ryzyka AI (AI Risk Assessment)
Pomaga wykrywać niebezpieczne zdolności (dangerous capabilities) zanim staną się one problemem
Umożliwia regulacjom i firmom podejmowanie świadomych decyzji

Popularne benchmarki i testy

MMLU – Massive Multitask Language Understanding
GPQA – Graduate-Level Google-Proof Q&A
HumanEval / SWE-Bench – testy programistyczne
ARC-AGI – test abstrakcyjnego rozumowania
AgentBench / WebArena – testy agentów autonomicznych
Dangerous Capabilities Evaluations – testy na zdolności do tworzenia broni, oszustw, manipulacji

Typy Capability Evaluation

General Capabilities – szeroka wiedza i rozumowanie
Specialized Capabilities – matematyka, kodowanie, medycyna, prawo
Agentic Capabilities – planowanie, wieloetapowe zadania, korzystanie z narzędzi
Dangerous Capabilities – zdolności do szkodliwych działań (biologia, cyber, manipulacja)

Aktualny stan (2026)

Organizacje takie jak METR, Apollo Research, Anthropic, OpenAI, DeepMind i UK AI Safety Institute regularnie przeprowadzają zaawansowane capability evaluations. Coraz większy nacisk kładzie się na ocenę zdolności agentycznych i ryzyk egzystencjalnych.

Powiązane pojęcia

Evaluation→End To End Evaluation→LLM Evaluation→Model Evaluation→Build Capability→Data Evaluation Harness→Embedding Evaluation→Evaluation Harness→Frontier Models Evaluation→Human Evaluation→

Dodano: 16 maja 2026