Knowledge Poisoning

Wprowadzenie

Knowledge Poisoning (Trucenie Wiedzy) to rodzaj ataku na systemy AI polegający na celowym wprowadzeniu zmanipulowanych lub fałszywych danych do zbioru treningowego, bazy wiedzy lub Knowledge Graph. Celem jest spowodowanie, aby model nauczył się błędnych lub szkodliwych zachowań.

Jak działa Knowledge Poisoning?

Atakujący wprowadza starannie przygotowane przykłady (tzw. poisoned samples), które sprawiają, że model:

  • Uczy się fałszywych powiązań (backdoor)
  • Generuje szkodliwe treści na konkretne trigger słowa
  • Obniża ogólną jakość odpowiedzi
  • Preferuje określone (np. konkurencyjne) źródła lub marki

Rodzaje ataków Knowledge Poisoning

  • Training Data Poisoning – trucenie zbioru treningowego
  • Retrieval Poisoning – atak na bazy wektorowe i RAG
  • Knowledge Graph Poisoning – zatruwanie grafów wiedzy
  • Model Poisoning – atak podczas fine-tuningu lub continual learning
  • Backdoor Poisoning – wprowadzanie ukrytych triggerów

Zastosowania i zagrożenia

  • Ataki na modele open-source trenowane na publicznych danych
  • Manipulacja systemami rekomendacyjnymi
  • Dezinformacja poprzez LLM-y
  • Szkodliwe zachowanie w aplikacjach enterprise
  • Ataki supply-chain na modele AI

Metody obrony

  • Data Sanitization i anomaly detection
  • Robust Training (np. adversarial training)
  • Verification of training data sources
  • Model auditing i backdoor detection
  • Isolation of fine-tuning data
  • Regularne testy bezpieczeństwa modelu

Najlepsze praktyki (2026)

  • Używanie curated i zweryfikowanych zbiorów danych
  • Implementacja Data Provenance (śledzenie pochodzenia danych)
  • Regularne skanowanie Knowledge Base pod kątem trucenia
  • Łączenie z Differential Privacy i Secure Aggregation
  • Monitoring zachowań modelu w produkcji

Powiązane pojęcia

Data Poisoning • Model Poisoning • Backdoor Attack • Adversarial Machine Learning • RAG Security • Supply Chain Attack • AI Safety • Training Data Integrity