Black-Box Attack

Wprowadzenie

Black-Box Attack to rodzaj ataku na modele sztucznej inteligencji, w którym atakujący nie ma dostępu do wewnętrznej struktury modelu (wag, architektury, parametrów). Może jedynie wysyłać zapytania (input) i obserwować odpowiedzi (output).

Rodzaje Black-Box Attacks

  • Query-Based Attacks – atakujący wysyła tysiące zapytań, aby odwzorować model
  • Adversarial Example Generation – tworzenie specjalnie spreparowanych danych wejściowych, które oszukują model
  • Model Extraction – kradzież modelu poprzez replikację jego zachowania
  • Membership Inference – sprawdzanie, czy dany przykład był w zbiorze treningowym
  • Evading Detection – omijanie systemów bezpieczeństwa

Przykłady ataków

  • Atak na modele klasyfikacji obrazów (np. zmiana kilku pikseli powoduje błędną klasyfikację)
  • Ataki na modele LLM (prompt injection, jailbreaking)
  • Kradzież modeli poprzez API (Model Extraction Attack)

Porównanie z White-Box Attack

  • White-Box – atakujący zna architekturę i wagi modelu
  • Black-Box – atakujący ma tylko dostęp do interfejsu (API)
  • Gray-Box – częściowa wiedza o modelu

Obrona przed Black-Box Attackami

  • Adversarial Training
  • Input Sanitization i detekcja anomalii
  • Rate Limiting i monitoring zapytań
  • Model Watermarking
  • Obfuscation i ensemble models

Aktualny status (2026)

Black-Box Attacks są jednym z najpoważniejszych zagrożeń dla modeli AI dostępnych publicznie (ChatGPT, Claude, Gemini, Grok itp.). W miarę jak modele stają się coraz bardziej dostępne poprzez API, ataki black-box stają się coraz popularniejsze i skuteczniejsze. Badacze rozwijają zarówno coraz potężniejsze metody ataku, jak i nowe techniki obrony (np. Differential Privacy, Robustness Certificates).

Powiązane pojęcia

White-Box Attack • Adversarial Attack • Model Extraction • API Security • Differential Privacy • Robustness • Prompt Injection