Adversarial Attack

Wprowadzenie

Adversarial Attack (Atak adwersarialny) to technika polegająca na celowym wprowadzeniu małych, często niewidocznych dla człowieka zmian w danych wejściowych, które powodują, że model AI popełnia poważny błąd.

Jak działa atak adwersarialny?

Atakujący generuje adversarial example – obraz, tekst lub dane, które wyglądają normalnie dla człowieka, ale maksymalnie zaburzają decyzję modelu. Najczęściej polega to na dodaniu specjalnie obliczonego szumu (adversarial perturbation).

Główne typy ataków adwersarialnych

  • White-box Attack – atakujący ma pełny dostęp do modelu (wagi, architektura, gradienty)
  • Black-box Attack – atakujący ma dostęp tylko do wyjścia modelu (najbardziej realistyczny scenariusz)
  • Targeted Attack – chce wymusić konkretną, błędną klasyfikację
  • Untargeted Attack – wystarczy jakikolwiek błąd
  • Physical Attack – działa w świecie rzeczywistym (naklejki na znakach drogowych, specjalne okulary)

Przykłady

  • Zmiana kilku pikseli na obrazie → model rozpoznaje panda jako gibbon z pewnością 99%
  • Niezauważalna zmiana tekstu → model LLM daje niebezpieczną odpowiedź
  • Ataki na systemy autonomicznych samochodów (zmiana znaków stop)

Metody generowania ataków

  • Fast Gradient Sign Method (FGSM)
  • Projected Gradient Descent (PGD)
  • Carlini & Wagner Attack (C&W)
  • AutoAttack

Obrona przed atakami adwersarialnymi

  • Adversarial Training (trening na przykładow adwersarialnych)
  • Input Preprocessing (np. denoising, randomization)
  • Defensive Distillation
  • Certified Defenses (provable robustness)
  • Model Ensemble

Znaczenie w 2026

Ataki adwersarialne są jednym z największych zagrożeń dla bezpieczeństwa AI, szczególnie w zastosowaniach krytycznych (samochody autonomiczne, medycyna, wojsko, finanse). EU AI Act i inne regulacje wymagają odporności na ataki adwersarialne w systemach wysokiego ryzyka.

Powiązane pojęcia

Adversarial Machine Learning • Adversarial Training • Robustness • AI Safety • Model Poisoning • Backdoor Attack • Red Teaming