Wprowadzenie
Robustness (odporność) modelu AI określa, jak dobrze model radzi sobie z danymi odbiegającymi od rozkładu treningowego oraz z celowymi atakami.Adversarial Robustness skupia się szczególnie na odporności na adversarial attacks — subtelne, celowo skonstruowane perturbacje wejścia, które mogą całkowicie zmienić predykcję modelu.
Adversarial Attacks
- FGSM (Fast Gradient Sign Method) – najprostszy, ale skuteczny atak
- PGD (Projected Gradient Descent) – silniejszy, iteracyjny atak
- AutoAttack – ensemble ataków używany jako standard oceny
- Universal Adversarial Perturbations – jeden szum działający na wiele przykładów
- Adversarial Attacks na LLM-y – prompt injection, jailbreaking, token manipulation
Metody zwiększania Robustness
- Adversarial Training – trenowanie na przykładach adversarial (najskuteczniejsza metoda)
- Defensive Distillation – transfer wiedzy z większego modelu
- Randomization (Input + Feature) – losowe transformacje wejścia
- Certified Robustness – metody dające matematyczne gwarancje (Randomized Smoothing)
- Adversarial Pre-training – self-supervised pre-training odporny na ataki
Robustness w modelach językowych (2026)
W kontekście LLM-ów adversarial robustness obejmuje:
- Ochronę przed prompt injection i jailbreakami
- Odporność na adversarial suffix/prefix attacks
- Defensywne mechanizmy w Post-training Alignment
- Red Teaming jako standardową praktykę
- Constitutional AI i Self-Critique
Trade-offy
Zwiększanie adversarial robustness prawie zawsze wiąże się z robustness-accuracy trade-off — model staje się bardziej odporny, ale spada jego dokładność na czystych danych.
Najlepsze praktyki (2026)
- Regularnie przeprowadzaj Red Teaming i Adversarial Testing
- Łącz Adversarial Training z Data Augmentation
- Używaj ensemble modeli o różnej architekturze
- Stosuj Certified Defense tam, gdzie wymagana jest wysoka pewność
- W LLM-ach łącz Guardrails, Output Filtering i Constitutional Principles
Powiązane pojęcia
Adversarial Attacks • Adversarial Training • Red Teaming • AI Safety • Certified Robustness • Jailbreaking • Prompt Injection • Model Hardening