Wprowadzenie
Adversarial Training to obecnie najpopularniejsza i najskuteczniejsza technika zwiększania odporności modeli uczenia maszynowego na ataki adwersarialne. Polega na włączaniu specjalnie wygenerowanych przykładow adwersarialnych do procesu treningu.
Jak działa Adversarial Training?
Zamiast trenować model tylko na czystych danych, w każdej iteracji lub co kilka kroków generujemy przykłady adwersarialne (np. za pomocą PGD), a następnie trenujemy model tak, aby poprawnie klasyfikował zarówno oryginalne, jak i zaburzone dane.
Główne warianty
- Standard Adversarial Training (Madry et al.) – najpopularniejszy
- PGD Adversarial Training – Projected Gradient Descent
- Free Adversarial Training – bardziej efektywny obliczeniowo
- TRADES – Trade-off between Robustness and Accuracy
- Adversarial Training with Data Augmentation
Zalety
- Znacznie zwiększa odporność na znane ataki adwersarialne
- Poprawia ogólną generalizację modelu w niektórych przypadkach
- Jest stosunkowo prosty do zaimplementowania
- Stanowi bazę dla wielu nowszych metod robustności
Wady i ograniczenia
- Znaczny wzrost kosztów obliczeniowych (3–10× wolniejszy trening)
- Obniżenie accuracy na czystych danych (robustness-accuracy trade-off)
- Słaba odporność na nowe, nieznane typy ataków
- Trudności przy bardzo dużych modelach (LLM, Diffusion Models)
Zastosowanie w 2026
Adversarial Training jest stosowany w systemach wysokiego ryzyka (samochody autonomiczne, medycyna, bezpieczeństwo), a także w modelach generatywnych do ochrony przed prompt injection i jailbreakingiem. Firmy takie jak OpenAI, Anthropic i Google DeepMind regularnie stosują warianty tej metody.
Powiązane pojęcia
Adversarial Attack • Adversarial Machine Learning • Model Robustness • PGD • TRADES • AI Safety • Certified Defense • Red Teaming