Data Poisoning (Zatruwanie Danych)

Wprowadzenie

Data Poisoning to rodzaj ataku na systemy sztucznej inteligencji, w którym atakujący celowo wprowadza zmanipulowane lub fałszywe dane do zbioru treningowego, aby zepsuć lub przejąć kontrolę nad modelem.

Jak działa Data Poisoning?

Atakujący modyfikuje dane treningowe przed lub w trakcie trenowania modelu. Nawet mała ilość zatrutych próbek (nawet 0,1–1%) może znacząco obniżyć jakość modelu lub wprowadzić ukryte zachowanie.

Główne typy ataków Data Poisoning

  • Label Flipping – zmiana etykiet (np. spam oznaczany jako nie-spam)
  • Backdoor Attack – dodanie „tylnych drzwi” (model działa normalnie, ale reaguje na specjalny trigger)
  • Availability Attack – celowe obniżenie ogólnej dokładności modelu
  • Targeted Attack – manipulacja decyzjami dla konkretnej klasy lub osoby
  • Clean-Label Poisoning – zatrucie bez zmiany etykiet (trudniejsze do wykrycia)

Przykłady realnych ataków

  • Zatruwanie zbiorów obrazów w systemach rozpoznawania twarzy
  • Ataki na modele rekomendacyjne (np. YouTube, Amazon)
  • Manipulacja modelami wykrywania malware
  • Ataki na autonomiczne pojazdy (zmiana oznaczeń znaków drogowych)

Metody obrony

  • Filtracja danych treningowych (anomaly detection)
  • Robust Training (adversarial training)
  • Verifiable Data Pipelines
  • Outlier Detection i Data Sanitization
  • Federated Learning z mechanizmami zaufania
  • Regularne audyty zbiorów danych

Powiązane pojęcia

Adversarial Machine Learning • Backdoor Attack • Model Poisoning • Label Flipping • AI Security • Prompt Injection • Supply Chain Attack

Opublikowano: 31 maja 2026

Ostatnia aktualizacja: 31 maja 2026