Wprowadzenie
Adversarial Machine Learning to subdyscyplina uczenia maszynowego zajmująca się badaniem podatności modeli AI na celowe ataki oraz rozwijaniem metod zwiększania ich odporności (robustness).
Główne obszary Adversarial ML
- Ataki (Attacks) – generowanie adversarial examples
- Obrona (Defenses) – techniki zwiększające odporność modeli
- Ataki na proces uczenia – model poisoning, backdoor attacks
- Ataki na inferencję – evasion attacks
- Privacy attacks – membership inference, model extraction
Typy ataków
- Evasion Attacks – modyfikacja danych wejściowych w czasie inferencji (najpopularniejsze)
- Poisoning Attacks – zanieczyszczanie zbioru treningowego
- Backdoor Attacks – wprowadzanie „tylnych drzwi” do modelu
- Exploratory Attacks – próba odwrócenia inżynierii modelu (model stealing)
Metody obrony
- Adversarial Training (trening na przykładach adwersarialnych)
- Defensive Distillation
- Input Sanitization / Randomization
- Certified Robustness (np. Randomized Smoothing)
- Detecting adversarial examples
- Model Ensemble i diversified architectures
Znaczenie w praktyce (2026)
Adversarial Machine Learning jest kluczowe dla bezpiecznego wdrażania AI w systemach krytycznych:
- Autonomiczne pojazdy
- Systemy medyczne i diagnostyczne
- Bezpieczeństwo narodowe i wojskowe AI
- Finanse (wykrywanie oszustw)
- Modele generatywne (ochrona przed prompt injection i jailbreaking)
Powiązane pojęcia
Adversarial Attack • Adversarial Training • Model Robustness • AI Safety • Red Teaming • Model Poisoning • Backdoor Attack • Explainable AI • AI Governance