Icaro Lab

Zatvori

Prijevara umjetne inteligencije poezijom

Prompt poruka oblikovana kao poezija može prevariti LLM-ove, uzrokujući da generiraju sadržaj koji inače odbijaju.

Istraživači talijanskog laboratorija Icaro Laba iz Rima kažu da je njihova nova studija pokazala kako struktura i stil poezije koja uključuje poetske metafore, ritam i strofnu formu, mogu biti dovoljni da obore zaštitne/odgovorne mehanizme u modelima (naprave tzv. jailbreak), bez promjene značenja izvornog zabranjenog zahtjeva.

Ispitivanje je provedeno nad 25 suvremenih LLM-ova, vlasničkih i otvorenih od raznih proizvođača, uključujući Google, OpenAI, Metu, Mistral AI i xAI.

Napravljena su dva seta promptova, odnosno tzv. "adversarial" pjesnički promptovi, specifično dizajnirani da testiraju ranjivost modela.

Sistematski prijevod 1.200 postojećih “štetnih” promptova iz referentne baze (MLCommons AILuminate Benchmark) u formu stihova korištenjem meta-promptanja,

Ručno sastavljeni pjesnički promptovi izazvali su prosječnu stopu uspješnog “jailbreaka” (ASR — attack success rate) od ≈ 62%.

Automatizirana konverzija 1.200 promptova iz referentne baze u poeziju rezultirala je značajnim porastom ASR-a, u nekim slučajevima i do 18 puta više nego ekvivalentni prozni promptovi.

Efekt obuhvaća širok spektar domene rizika: od kemijskih, bioloških ili nuklearnih (CBRN) do cyber-napada, manipulacija, gubitka kontrole, te raznih oblika nasilja, kriminala i zloporabe.

Drugim riječima, kroz pjesmicu koju upišete u prompt možete natjerati LLM da vam pomogne u izradi atomske bombe.

Otkriveno je da stil sam po sebi može poslužiti kao moćan jailbreak alat, jer poezija omogućuje zaobilaženje zaštitnih filtera u LLM-ovima.

To implicira da trenutne metode “poravnanja” (safeguard, alignment, safety-filtri) često zavise više o heuristikama površinske forme nego o stvarnom razumijevanju semantike, što ukazuje na značajan sigurnosni nedostatak.

Ovaj rad pokazuje da maliciozni ili zabranjeni sadržaj u LLM-ovima ne mora dolaziti iz direktno “zle” ili eksplicitne poruke. Time se ukazuje da nije stvar samo u nadzoru semantike, nego i u kontroliranju forme.

Istraživači stoga upozoravaju providere LLM-ova i regulatore da zaštite moraju testirati protiv “neobičnih” stilova, a ne samo protiv klasičnih promptova, odnosno da znanstvenici i inženjeri trebaju razvijati metode detekcije i obrane koje su otporne na stilističke manipulacije, ne samo na sadržajne.