Adversarial Attack | Encyklopedia AI

Wprowadzenie

Adversarial Attack (Atak adwersarialny) to technika polegająca na celowym wprowadzeniu małych, często niewidocznych dla człowieka zmian w danych wejściowych, które powodują, że model AI popełnia poważny błąd.

Jak działa atak adwersarialny?

Atakujący generuje adversarial example – obraz, tekst lub dane, które wyglądają normalnie dla człowieka, ale maksymalnie zaburzają decyzję modelu. Najczęściej polega to na dodaniu specjalnie obliczonego szumu (adversarial perturbation).

Główne typy ataków adwersarialnych

White-box Attack – atakujący ma pełny dostęp do modelu (wagi, architektura, gradienty)
Black-box Attack – atakujący ma dostęp tylko do wyjścia modelu (najbardziej realistyczny scenariusz)
Targeted Attack – chce wymusić konkretną, błędną klasyfikację
Untargeted Attack – wystarczy jakikolwiek błąd
Physical Attack – działa w świecie rzeczywistym (naklejki na znakach drogowych, specjalne okulary)

Przykłady

Zmiana kilku pikseli na obrazie → model rozpoznaje panda jako gibbon z pewnością 99%
Niezauważalna zmiana tekstu → model LLM daje niebezpieczną odpowiedź
Ataki na systemy autonomicznych samochodów (zmiana znaków stop)

Metody generowania ataków

Fast Gradient Sign Method (FGSM)
Projected Gradient Descent (PGD)
Carlini & Wagner Attack (C&W)
AutoAttack

Obrona przed atakami adwersarialnymi

Adversarial Training (trening na przykładow adwersarialnych)
Input Preprocessing (np. denoising, randomization)
Defensive Distillation
Certified Defenses (provable robustness)
Model Ensemble

Znaczenie w 2026

Ataki adwersarialne są jednym z największych zagrożeń dla bezpieczeństwa AI, szczególnie w zastosowaniach krytycznych (samochody autonomiczne, medycyna, wojsko, finanse). EU AI Act i inne regulacje wymagają odporności na ataki adwersarialne w systemach wysokiego ryzyka.

Powiązane pojęcia

Kernel Adversarial Attack→Adversarial AI→Adversarial Training→Adversarial Machine Learning→Black Box Attack→Birthday Attack→Byzantine Attack→Ciphertext Only Attack→Ddos Attack→Deep Adversarial Multi Agent→