Capability Evaluation

Wprowadzenie

Capability Evaluation to systematyczny proces testowania, mierzenia i dokumentowania rzeczywistych zdolności modeli sztucznej inteligencji. W przeciwieństwie do tradycyjnych benchmarków, które mierzą głównie „średnią wydajność”, capability evaluation skupia się na tym, co model naprawdę potrafi zrobić – w tym na zdolnościach niebezpiecznych.

Dlaczego jest tak ważna?

  • Pozwala śledzić rzeczywisty postęp w kierunku AGI i ASI
  • Jest podstawą do oceny ryzyka AI (AI Risk Assessment)
  • Pomaga wykrywać niebezpieczne zdolności (dangerous capabilities) zanim staną się one problemem
  • Umożliwia regulacjom i firmom podejmowanie świadomych decyzji

Popularne benchmarki i testy

  • MMLU – Massive Multitask Language Understanding
  • GPQA – Graduate-Level Google-Proof Q&A
  • HumanEval / SWE-Bench – testy programistyczne
  • ARC-AGI – test abstrakcyjnego rozumowania
  • AgentBench / WebArena – testy agentów autonomicznych
  • Dangerous Capabilities Evaluations – testy na zdolności do tworzenia broni, oszustw, manipulacji

Typy Capability Evaluation

  • General Capabilities – szeroka wiedza i rozumowanie
  • Specialized Capabilities – matematyka, kodowanie, medycyna, prawo
  • Agentic Capabilities – planowanie, wieloetapowe zadania, korzystanie z narzędzi
  • Dangerous Capabilities – zdolności do szkodliwych działań (biologia, cyber, manipulacja)

Aktualny stan (2026)

Organizacje takie jak METR, Apollo Research, Anthropic, OpenAI, DeepMind i UK AI Safety Institute regularnie przeprowadzają zaawansowane capability evaluations. Coraz większy nacisk kładzie się na ocenę zdolności agentycznych i ryzyk egzystencjalnych.

Powiązane pojęcia

Benchmarking • MMLU • GPQA • ARC-AGI • Dangerous Capabilities • AI Risk Assessment • Scaling Laws • AGI Evaluation • Red Teaming

Dodano: 16 maja 2026