Anonymization | Encyklopedia AI

Wprowadzenie

Anonymization (Anonimizacja) to proces przekształcania danych w taki sposób, że niemożliwe jest przypisanie ich do konkretnej osoby fizycznej – nawet przy użyciu dodatkowych informacji. Jest to silniejsza forma ochrony danych niż pseudonimizacja.

Różnica między Anonymization a Pseudonymization

Anonymization – dane są nieodwracalnie anonimowe (nie da się ich odwrócić)
Pseudonymization – dane są zastępowane pseudonimami, ale przy pomocy dodatkowego klucza można je z powrotem powiązać z osobą (np. zamiana imienia i nazwiska na ID)

Główne techniki anonimizacji

k-Anonymity – każda kombinacja cech występuje przynajmniej k razy
l-Diversity – ochrona przed homogeneity attack
t-Closeness – ochrona przed similarity attack
Differential Privacy – dodawanie kontrolowanego szumu (najpopularniejsza w AI)
Data Masking / Tokenization
Generalization & Suppression (np. zamiana dokładnego wieku na przedział)
Synthetic Data Generation – tworzenie sztucznych danych

Anonymization w AI i uczeniu maszynowym

Przy trenowaniu dużych modeli językowych i systemów AI bardzo ważne jest anonimizowanie danych treningowych, aby:

Chronić prywatność osób, których dane były w zbiorze treningowym
Unikać wycieku danych osobowych (data leakage)
Spełniać wymagania RODO/GDPR
Zmniejszać ryzyko ataków Membership Inference

Wyzwania i ograniczenia

Re-identification Attacks – połączenie wielu zbiorów danych może „odanonimizować” dane
Trudność zachowania użyteczności danych przy silnej anonimizacji
Koszt i złożoność procesów
Rozwój AI sprawia, że coraz łatwiej jest deanonimizować dane

Regulacje prawne

Według RODO/GDPR (art. 4) w pełni zanonimizowane dane nie podlegają przepisom o ochronie danych osobowych. Dlatego wiele organizacji dąży do prawdziwej anonimizacji zamiast pseudonimizacji.

Powiązane pojęcia

Data Anonymization→Face Anonymization→Differential Privacy→K Anonymity Privacy→