Data Poisoning (Zatruwanie Danych) – Atak na modele AI | Encyklopedia AI

Wprowadzenie

Data Poisoning to rodzaj ataku na systemy sztucznej inteligencji, w którym atakujący celowo wprowadza zmanipulowane lub fałszywe dane do zbioru treningowego, aby zepsuć lub przejąć kontrolę nad modelem.

Jak działa Data Poisoning?

Atakujący modyfikuje dane treningowe przed lub w trakcie trenowania modelu. Nawet mała ilość zatrutych próbek (nawet 0,1–1%) może znacząco obniżyć jakość modelu lub wprowadzić ukryte zachowanie.

Główne typy ataków Data Poisoning

Label Flipping – zmiana etykiet (np. spam oznaczany jako nie-spam)
Backdoor Attack – dodanie „tylnych drzwi” (model działa normalnie, ale reaguje na specjalny trigger)
Availability Attack – celowe obniżenie ogólnej dokładności modelu
Targeted Attack – manipulacja decyzjami dla konkretnej klasy lub osoby
Clean-Label Poisoning – zatrucie bez zmiany etykiet (trudniejsze do wykrycia)

Przykłady realnych ataków

Zatruwanie zbiorów obrazów w systemach rozpoznawania twarzy
Ataki na modele rekomendacyjne (np. YouTube, Amazon)
Manipulacja modelami wykrywania malware
Ataki na autonomiczne pojazdy (zmiana oznaczeń znaków drogowych)

Metody obrony

Filtracja danych treningowych (anomaly detection)
Robust Training (adversarial training)
Verifiable Data Pipelines
Outlier Detection i Data Sanitization
Federated Learning z mechanizmami zaufania
Regularne audyty zbiorów danych

Powiązane pojęcia

Cache Poisoning→Knowledge Poisoning→Adversarial Machine Learning→Adversarial Attack→Extreme Learning Machine→Interactive Machine Learning→Kernel Adversarial Attack→Machine Learning→Quantum Machine Learning→Decentralized Machine Learning→