Machine Unlearning

Wprowadzenie

Machine Unlearning (Maszynowe Zapominanie) to dziedzina sztucznej inteligencji zajmująca się usuwaniem wpływu określonych danych treningowych z już wytrenowanego modelu bez konieczności trenowania go od zera. Jest odpowiedzią na rosnące wymagania regulacyjne (np. GDPR – prawo do bycia zapomnianym) oraz potrzeby bezpieczeństwa.

Dlaczego Machine Unlearning jest ważny?

  • Realizacja Right to be Forgotten (prawo do bycia zapomnianym)
  • Usuwanie toksycznych, nielegalnych lub błędnych danych
  • Poprawa bezpieczeństwa modelu (usuwanie backdoorów, poisoned data)
  • Ochrona prywatności użytkowników
  • Możliwość „oduczenia” modelu szkodliwych zachowań

Główne podejścia do Machine Unlearning

  • Exact Unlearning – dokładne usunięcie wpływu danych (bardzo kosztowne)
  • Approximate Unlearning – przybliżone zapominanie (najczęściej stosowane)
  • Gradient Ascent / Ascent-based Unlearning – maksymalizacja lossu na danych do usunięcia
  • Model Editing / Parameter Editing – modyfikacja konkretnych parametrów
  • Retraining with Negative Examples
  • Influence-based Unlearning – wykorzystanie wpływu poszczególnych przykładów treningowych

Wyzwania

  • Utrzymanie ogólnej wydajności modelu po usunięciu danych
  • Trudność weryfikacji, czy dane zostały naprawdę „zapomniane”
  • Wysoki koszt obliczeniowy przy dużych modelach
  • Ryzyko ataków membership inference po unlearningu
  • Brak uniwersalnej, skalowalnej metody dla bardzo dużych LLM-ów

Znane metody i frameworki

  • SCRUB (2022)
  • ROME / MEMIT – techniki edycji wiedzy w modelach
  • Gradient Difference Unlearning
  • Surgical Unlearning
  • MU-Retrain i metody oparte na replay

Zastosowania

  • Usuwanie danych osobowych z modeli produkcyjnych
  • Korygowanie biasów i toksycznych zachowań
  • Usuwanie copyrighted content z modeli generatywnych
  • Bezpieczeństwo i compliance w przedsiębiorstwach

Powiązane pojęcia

Right to be Forgotten • Model Editing • ROME • MEMIT • Data Privacy • GDPR • Poisoned Data Removal • Approximate Unlearning • Influence Functions