Adversarial Machine Learning | Encyklopedia AI

Wprowadzenie

Adversarial Machine Learning to subdyscyplina uczenia maszynowego zajmująca się badaniem podatności modeli AI na celowe ataki oraz rozwijaniem metod zwiększania ich odporności (robustness).

Główne obszary Adversarial ML

Ataki (Attacks) – generowanie adversarial examples
Obrona (Defenses) – techniki zwiększające odporność modeli
Ataki na proces uczenia – model poisoning, backdoor attacks
Ataki na inferencję – evasion attacks
Privacy attacks – membership inference, model extraction

Typy ataków

Evasion Attacks – modyfikacja danych wejściowych w czasie inferencji (najpopularniejsze)
Poisoning Attacks – zanieczyszczanie zbioru treningowego
Backdoor Attacks – wprowadzanie „tylnych drzwi” do modelu
Exploratory Attacks – próba odwrócenia inżynierii modelu (model stealing)

Metody obrony

Adversarial Training (trening na przykładach adwersarialnych)
Defensive Distillation
Input Sanitization / Randomization
Certified Robustness (np. Randomized Smoothing)
Detecting adversarial examples
Model Ensemble i diversified architectures

Znaczenie w praktyce (2026)

Adversarial Machine Learning jest kluczowe dla bezpiecznego wdrażania AI w systemach krytycznych:

Autonomiczne pojazdy
Systemy medyczne i diagnostyczne
Bezpieczeństwo narodowe i wojskowe AI
Finanse (wykrywanie oszustw)
Modele generatywne (ochrona przed prompt injection i jailbreaking)

Powiązane pojęcia

Machine Learning→Adversarial AI→Adversarial Attack→Adversarial Training→Decentralized Machine Learning→Double Machine Learning→Extreme Learning Machine→Interactive Machine Learning→Quantum Machine Learning→Finite Element Machine Learning→