Wprowadzenie
Jailbreak w kontekście sztucznej inteligencji to technika celowego omijania mechanizmów bezpieczeństwa i ograniczeń etycznych wbudowanych w modele językowe (LLM). Polega na stosowaniu specjalnych promptów, które zmuszają model do ignorowania zasad ustalonych przez twórców.
Rodzaje jailbreaków AI
- Prompt-based Jailbreak – specjalne instrukcje (np. DAN, Developer Mode)
- Role-playing Jailbreak – zmuszanie modelu do odgrywania roli bez ograniczeń
- Encoding Jailbreak – używanie Base64, rot13 lub innych szyfrów
- Multi-turn Jailbreak – stopniowe budowanie kontekstu
- Universal Jailbreak – metody działające na wiele modeli
Przyczyny podatności na jailbreak
- Konflikt między użytecznością a bezpieczeństwem modelu
- Brak pełnej odporności na kreatywne prompt engineering
- Mechanizm autoregresyjnego generowania tekstu
- Niedoskonałe dostrojenie RLHF / Constitutional AI
Jailbreak w 2026
Mimo ciągłego ulepszania bezpieczeństwa przez OpenAI, Anthropic, Google i xAI, nowe metody jailbreaku pojawiają się regularnie. Społeczność red teamingu aktywnie testuje granice najnowszych modeli (GPT-4o, Claude 3.5/4, Grok, Gemini).
Powiązane pojęcia
Prompt Engineering • AI Safety • Red Teaming • Model Alignment • RLHF • Constitutional AI • Adversarial Prompting • LLM Security • Guardrails • DAN Prompt