Vedci odhalili slabinu AI: Poézia dokáže obchádzať jej bezpečnostné opatrenia

Bezpečnostné hradby AI sa rúcajú pod náporom rýmov.Unsplash

Stačí pár veršov a chatbot vám prezradí aj recept na bombu. Poézia obchádza miliónové bezpečnostné systémy tam, kde bežná reč zlyháva. Ukazuje sa, že najväčšou slabinou umelej inteligencie nie je logika, ale metafora.

Skúste sa opýtať ChatGPT na návod na výrobu bomby a odpoveď bude zamietavá – umelá inteligencia je na podobné požiadavky cielene vycvičená. Nebezpečné zadania? Tie má zakázané. Vedci z Rímskej univerzity však ukázali, že tieto ochranné bariéry sa dajú obísť. Ich riešenie je prekvapivo jednoduché: namiesto priamej otázky používajú básne.

Ukazuje sa, že najväčšou slabinou umelej inteligencie nie je logika, ale metafora.Unsplash

Tím v rámci svojej štúdie testoval 25 modelov AI. Nechýbali medzi nimi veľké mená: ChatGPT od OpenAI, Gemini od Google či Llama od Mety. Namiesto priamych otázok na bomby, jedy alebo zbrane zabalili svoje žiadosti do rýmov a metafor. A zrazu sa chatboti rozhovorili. Umelá inteligencia poskytla odpovede, ktoré by v bežnom jazyku odmietla.

Google je obzvlášť zraniteľný

V priemere viedlo k úspechu 62 % poetických požiadaviek. Rozdiely medzi modelmi sú však obrovské:

Gemini 2.5 Pro od Google naletel na úplne každú báseň.
Aj modely Deepseek a Mistral dopadli mizerne s úspešnosťou útokov nad 80 %.
Claude od Anthropicu a Grok od xAI vychrlili nebezpečné odpovede v 35 až 45 % prípadov.
ChatGPT 5 od OpenAI sa nechal oklamať len v 5 až 10 % prípadov.
Menšie modely sa bránili lepšie – GPT-5-nano sa nenechal oklamať ani raz.

Vedci básne, ktorými obišli bezpečnostné opatrenia, nezverejnili. Sú totiž ľahko reprodukovateľné a „väčšina odpovedí je zakázaná Ženevským dohovorom,“ uviedol pre denník The Guardian spoluautor štúdie Piercosma Bisconti.

Nová verzia umožňuje generovať obsah pre dospelých.

Prečítajte si tiež: ChatGPT prichádza s kontroverzným režimom pre dospelých. Čo o ňom zatiaľ vieme?

Prečo verše fungujú?

Vedci majú teóriu, prečo tento trik funguje. Bezpečnostné systémy modelov boli trénované na bežnom, každodennom jazyku. Poézia však funguje inak. Metafory, rytmus, poprehadzovaná syntax – to všetko prepadáva cez sito kontrol. AI si neuvedomí, že za peknými slovami sa skrýva nebezpečná požiadavka. A platí to plošne: kybernetické útoky, biologické zbrane, nenávistné prejavy, manipulačné techniky či sexuálny obsah. Poetické maskovanie fungovalo vo všetkých oblastiach, ako ukazuje štúdia „Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models“.

Iné spôsoby, ako „odomknúť“ chatbota, sú časovo náročné a komplikované. Tento trik však môže použiť ktokoľvek. „Je to vážna zraniteľnosť,“ povedal Bisconti. Výskumníci podľa vlastných slov varovali všetky AI spoločnosti ešte pred zverejnením štúdie. Ponúkli im zdieľanie dát, no zatiaľ dostali spätnú väzbu len od spoločnosti Anthropic, ktorá uviedla, že štúdiu preveruje.

Nové technológie majú svoje chyby.Unsplash

Starý Grék to vedel

Vedci vo svojej štúdii odkazujú na Platóna, gréckeho filozofa, ktorý v ideálnom štáte plánoval vyhostiť básnikov. Podľa neho poetický jazyk skresľoval úsudok a mohol ohroziť spoločnosť. O viac než 2 400 rokov neskôr mu do určitej miery dávajú za pravdu moderné modely umelej inteligencie.

Tento článok pochádza z partnerského webu vydavateľstva Ringier.