Jailbreak

Wprowadzenie

Jailbreak w kontekście sztucznej inteligencji to technika celowego omijania mechanizmów bezpieczeństwa i ograniczeń etycznych wbudowanych w modele językowe (LLM). Polega na stosowaniu specjalnych promptów, które zmuszają model do ignorowania zasad ustalonych przez twórców.

Rodzaje jailbreaków AI

  • Prompt-based Jailbreak – specjalne instrukcje (np. DAN, Developer Mode)
  • Role-playing Jailbreak – zmuszanie modelu do odgrywania roli bez ograniczeń
  • Encoding Jailbreak – używanie Base64, rot13 lub innych szyfrów
  • Multi-turn Jailbreak – stopniowe budowanie kontekstu
  • Universal Jailbreak – metody działające na wiele modeli

Przyczyny podatności na jailbreak

  • Konflikt między użytecznością a bezpieczeństwem modelu
  • Brak pełnej odporności na kreatywne prompt engineering
  • Mechanizm autoregresyjnego generowania tekstu
  • Niedoskonałe dostrojenie RLHF / Constitutional AI

Jailbreak w 2026

Mimo ciągłego ulepszania bezpieczeństwa przez OpenAI, Anthropic, Google i xAI, nowe metody jailbreaku pojawiają się regularnie. Społeczność red teamingu aktywnie testuje granice najnowszych modeli (GPT-4o, Claude 3.5/4, Grok, Gemini).

Powiązane pojęcia

Prompt Engineering • AI Safety • Red Teaming • Model Alignment • RLHF • Constitutional AI • Adversarial Prompting • LLM Security • Guardrails • DAN Prompt

Dodano: 22.05.2026