Robustness / Adversarial Robustness

Wprowadzenie

Robustness (odporność) modelu AI określa, jak dobrze model radzi sobie z danymi odbiegającymi od rozkładu treningowego oraz z celowymi atakami.Adversarial Robustness skupia się szczególnie na odporności na adversarial attacks — subtelne, celowo skonstruowane perturbacje wejścia, które mogą całkowicie zmienić predykcję modelu.

Adversarial Attacks

  • FGSM (Fast Gradient Sign Method) – najprostszy, ale skuteczny atak
  • PGD (Projected Gradient Descent) – silniejszy, iteracyjny atak
  • AutoAttack – ensemble ataków używany jako standard oceny
  • Universal Adversarial Perturbations – jeden szum działający na wiele przykładów
  • Adversarial Attacks na LLM-y – prompt injection, jailbreaking, token manipulation

Metody zwiększania Robustness

  • Adversarial Training – trenowanie na przykładach adversarial (najskuteczniejsza metoda)
  • Defensive Distillation – transfer wiedzy z większego modelu
  • Randomization (Input + Feature) – losowe transformacje wejścia
  • Certified Robustness – metody dające matematyczne gwarancje (Randomized Smoothing)
  • Adversarial Pre-training – self-supervised pre-training odporny na ataki

Robustness w modelach językowych (2026)

W kontekście LLM-ów adversarial robustness obejmuje:

  • Ochronę przed prompt injection i jailbreakami
  • Odporność na adversarial suffix/prefix attacks
  • Defensywne mechanizmy w Post-training Alignment
  • Red Teaming jako standardową praktykę
  • Constitutional AI i Self-Critique

Trade-offy

Zwiększanie adversarial robustness prawie zawsze wiąże się z robustness-accuracy trade-off — model staje się bardziej odporny, ale spada jego dokładność na czystych danych.

Najlepsze praktyki (2026)

  • Regularnie przeprowadzaj Red Teaming i Adversarial Testing
  • Łącz Adversarial Training z Data Augmentation
  • Używaj ensemble modeli o różnej architekturze
  • Stosuj Certified Defense tam, gdzie wymagana jest wysoka pewność
  • W LLM-ach łącz Guardrails, Output Filtering i Constitutional Principles

Powiązane pojęcia

Adversarial Attacks • Adversarial Training • Red Teaming • AI Safety • Certified Robustness • Jailbreaking • Prompt Injection • Model Hardening