Adversarial Machine Learning

Wprowadzenie

Adversarial Machine Learning to subdyscyplina uczenia maszynowego zajmująca się badaniem podatności modeli AI na celowe ataki oraz rozwijaniem metod zwiększania ich odporności (robustness).

Główne obszary Adversarial ML

  • Ataki (Attacks) – generowanie adversarial examples
  • Obrona (Defenses) – techniki zwiększające odporność modeli
  • Ataki na proces uczenia – model poisoning, backdoor attacks
  • Ataki na inferencję – evasion attacks
  • Privacy attacks – membership inference, model extraction

Typy ataków

  • Evasion Attacks – modyfikacja danych wejściowych w czasie inferencji (najpopularniejsze)
  • Poisoning Attacks – zanieczyszczanie zbioru treningowego
  • Backdoor Attacks – wprowadzanie „tylnych drzwi” do modelu
  • Exploratory Attacks – próba odwrócenia inżynierii modelu (model stealing)

Metody obrony

  • Adversarial Training (trening na przykładach adwersarialnych)
  • Defensive Distillation
  • Input Sanitization / Randomization
  • Certified Robustness (np. Randomized Smoothing)
  • Detecting adversarial examples
  • Model Ensemble i diversified architectures

Znaczenie w praktyce (2026)

Adversarial Machine Learning jest kluczowe dla bezpiecznego wdrażania AI w systemach krytycznych:

  • Autonomiczne pojazdy
  • Systemy medyczne i diagnostyczne
  • Bezpieczeństwo narodowe i wojskowe AI
  • Finanse (wykrywanie oszustw)
  • Modele generatywne (ochrona przed prompt injection i jailbreaking)

Powiązane pojęcia

Adversarial Attack • Adversarial Training • Model Robustness • AI Safety • Red Teaming • Model Poisoning • Backdoor Attack • Explainable AI • AI Governance