Knowledge Poisoning | Trucenie Wiedzy w Modelach AI | Encyklopedia AI

Wprowadzenie

Knowledge Poisoning (Trucenie Wiedzy) to rodzaj ataku na systemy AI polegający na celowym wprowadzeniu zmanipulowanych lub fałszywych danych do zbioru treningowego, bazy wiedzy lub Knowledge Graph. Celem jest spowodowanie, aby model nauczył się błędnych lub szkodliwych zachowań.

Jak działa Knowledge Poisoning?

Atakujący wprowadza starannie przygotowane przykłady (tzw. poisoned samples), które sprawiają, że model:

Uczy się fałszywych powiązań (backdoor)
Generuje szkodliwe treści na konkretne trigger słowa
Obniża ogólną jakość odpowiedzi
Preferuje określone (np. konkurencyjne) źródła lub marki

Rodzaje ataków Knowledge Poisoning

Training Data Poisoning – trucenie zbioru treningowego
Retrieval Poisoning – atak na bazy wektorowe i RAG
Knowledge Graph Poisoning – zatruwanie grafów wiedzy
Model Poisoning – atak podczas fine-tuningu lub continual learning
Backdoor Poisoning – wprowadzanie ukrytych triggerów

Zastosowania i zagrożenia

Ataki na modele open-source trenowane na publicznych danych
Manipulacja systemami rekomendacyjnymi
Dezinformacja poprzez LLM-y
Szkodliwe zachowanie w aplikacjach enterprise
Ataki supply-chain na modele AI

Metody obrony

Data Sanitization i anomaly detection
Robust Training (np. adversarial training)
Verification of training data sources
Model auditing i backdoor detection
Isolation of fine-tuning data
Regularne testy bezpieczeństwa modelu

Najlepsze praktyki (2026)

Używanie curated i zweryfikowanych zbiorów danych
Implementacja Data Provenance (śledzenie pochodzenia danych)
Regularne skanowanie Knowledge Base pod kątem trucenia
Łączenie z Differential Privacy i Secure Aggregation
Monitoring zachowań modelu w produkcji

Powiązane pojęcia

Knowledge Graph Security AI→Knowledge Retrieval AI→Knowledge Graph RAG→Knowledge Graph RAG Industrial AI→Knowledge Graph→Knowledge Graph 5G AI→Knowledge Graph 6G AI→Knowledge Embedding→Data Poisoning→Adversarial Machine Learning→