Wprowadzenie
Adversarial Attack (Atak adwersarialny) to technika polegająca na celowym wprowadzeniu małych, często niewidocznych dla człowieka zmian w danych wejściowych, które powodują, że model AI popełnia poważny błąd.
Jak działa atak adwersarialny?
Atakujący generuje adversarial example – obraz, tekst lub dane, które wyglądają normalnie dla człowieka, ale maksymalnie zaburzają decyzję modelu. Najczęściej polega to na dodaniu specjalnie obliczonego szumu (adversarial perturbation).
Główne typy ataków adwersarialnych
- White-box Attack – atakujący ma pełny dostęp do modelu (wagi, architektura, gradienty)
- Black-box Attack – atakujący ma dostęp tylko do wyjścia modelu (najbardziej realistyczny scenariusz)
- Targeted Attack – chce wymusić konkretną, błędną klasyfikację
- Untargeted Attack – wystarczy jakikolwiek błąd
- Physical Attack – działa w świecie rzeczywistym (naklejki na znakach drogowych, specjalne okulary)
Przykłady
- Zmiana kilku pikseli na obrazie → model rozpoznaje panda jako gibbon z pewnością 99%
- Niezauważalna zmiana tekstu → model LLM daje niebezpieczną odpowiedź
- Ataki na systemy autonomicznych samochodów (zmiana znaków stop)
Metody generowania ataków
- Fast Gradient Sign Method (FGSM)
- Projected Gradient Descent (PGD)
- Carlini & Wagner Attack (C&W)
- AutoAttack
Obrona przed atakami adwersarialnymi
- Adversarial Training (trening na przykładow adwersarialnych)
- Input Preprocessing (np. denoising, randomization)
- Defensive Distillation
- Certified Defenses (provable robustness)
- Model Ensemble
Znaczenie w 2026
Ataki adwersarialne są jednym z największych zagrożeń dla bezpieczeństwa AI, szczególnie w zastosowaniach krytycznych (samochody autonomiczne, medycyna, wojsko, finanse). EU AI Act i inne regulacje wymagają odporności na ataki adwersarialne w systemach wysokiego ryzyka.
Powiązane pojęcia
Adversarial Machine Learning • Adversarial Training • Robustness • AI Safety • Model Poisoning • Backdoor Attack • Red Teaming