Wprowadzenie
Black-Box Attack to rodzaj ataku na modele sztucznej inteligencji, w którym atakujący nie ma dostępu do wewnętrznej struktury modelu (wag, architektury, parametrów). Może jedynie wysyłać zapytania (input) i obserwować odpowiedzi (output).
Rodzaje Black-Box Attacks
- Query-Based Attacks – atakujący wysyła tysiące zapytań, aby odwzorować model
- Adversarial Example Generation – tworzenie specjalnie spreparowanych danych wejściowych, które oszukują model
- Model Extraction – kradzież modelu poprzez replikację jego zachowania
- Membership Inference – sprawdzanie, czy dany przykład był w zbiorze treningowym
- Evading Detection – omijanie systemów bezpieczeństwa
Przykłady ataków
- Atak na modele klasyfikacji obrazów (np. zmiana kilku pikseli powoduje błędną klasyfikację)
- Ataki na modele LLM (prompt injection, jailbreaking)
- Kradzież modeli poprzez API (Model Extraction Attack)
Porównanie z White-Box Attack
- White-Box – atakujący zna architekturę i wagi modelu
- Black-Box – atakujący ma tylko dostęp do interfejsu (API)
- Gray-Box – częściowa wiedza o modelu
Obrona przed Black-Box Attackami
- Adversarial Training
- Input Sanitization i detekcja anomalii
- Rate Limiting i monitoring zapytań
- Model Watermarking
- Obfuscation i ensemble models
Aktualny status (2026)
Black-Box Attacks są jednym z najpoważniejszych zagrożeń dla modeli AI dostępnych publicznie (ChatGPT, Claude, Gemini, Grok itp.). W miarę jak modele stają się coraz bardziej dostępne poprzez API, ataki black-box stają się coraz popularniejsze i skuteczniejsze. Badacze rozwijają zarówno coraz potężniejsze metody ataku, jak i nowe techniki obrony (np. Differential Privacy, Robustness Certificates).
Powiązane pojęcia
White-Box Attack • Adversarial Attack • Model Extraction • API Security • Differential Privacy • Robustness • Prompt Injection