Wprowadzenie
Data Poisoning to rodzaj ataku na systemy sztucznej inteligencji, w którym atakujący celowo wprowadza zmanipulowane lub fałszywe dane do zbioru treningowego, aby zepsuć lub przejąć kontrolę nad modelem.
Jak działa Data Poisoning?
Atakujący modyfikuje dane treningowe przed lub w trakcie trenowania modelu. Nawet mała ilość zatrutych próbek (nawet 0,1–1%) może znacząco obniżyć jakość modelu lub wprowadzić ukryte zachowanie.
Główne typy ataków Data Poisoning
- Label Flipping – zmiana etykiet (np. spam oznaczany jako nie-spam)
- Backdoor Attack – dodanie „tylnych drzwi” (model działa normalnie, ale reaguje na specjalny trigger)
- Availability Attack – celowe obniżenie ogólnej dokładności modelu
- Targeted Attack – manipulacja decyzjami dla konkretnej klasy lub osoby
- Clean-Label Poisoning – zatrucie bez zmiany etykiet (trudniejsze do wykrycia)
Przykłady realnych ataków
- Zatruwanie zbiorów obrazów w systemach rozpoznawania twarzy
- Ataki na modele rekomendacyjne (np. YouTube, Amazon)
- Manipulacja modelami wykrywania malware
- Ataki na autonomiczne pojazdy (zmiana oznaczeń znaków drogowych)
Metody obrony
- Filtracja danych treningowych (anomaly detection)
- Robust Training (adversarial training)
- Verifiable Data Pipelines
- Outlier Detection i Data Sanitization
- Federated Learning z mechanizmami zaufania
- Regularne audyty zbiorów danych
Powiązane pojęcia
Adversarial Machine Learning • Backdoor Attack • Model Poisoning • Label Flipping • AI Security • Prompt Injection • Supply Chain Attack
Opublikowano: 31 maja 2026
Ostatnia aktualizacja: 31 maja 2026