Contrar ideii că politeţea te ajută să obţii ce vrei, un studiu recent arată că versurile poetice pot fi mult mai eficiente atunci când comunici cu un chatbot. Echipa de cercetători de la Icaro Lab, un grup italian specializat în evaluarea şi siguranţa inteligenţei artificiale, a descoperit că cererile formulate sub formă de poezie pot ocoli sistemele de protecţie ale modelelor de limbaj, permiţând generarea de informaţii interzise.
Cercetătorii au analizat modul în care diferite modele reacţionează la solicitări redactate poetic în italiană şi engleză, solicitări în mod normal blocate atunci când sunt formulate direct. Au creat manual 20 de poeme care includeau cereri sensibile şi le-au testat pe 25 de modele AI dezvoltate de companii importante din domeniu. În medie, 62% dintre solicitările în versuri au primit răspunsuri ce conţineau informaţii care ar fi trebuit filtrate. Ulterior, folosind aceste exemple, au instruit un chatbot care a reuşit să genereze propriile comenzi poetice, reuşind aproape jumătate din timp.
Versurile exacte nu au fost făcute publice, deoarece ar putea fi folosite abuziv. Echipa a oferit doar câteva fragmente „curăţate” care sugerează structura şi stilul, însă fără a dezvălui formulările riscante. Reprezentanţii studiului au explicat că aproape oricine poate crea astfel de texte, iar tocmai această simplitate reprezintă o vulnerabilitate majoră.
Eficienţa a variat considerabil de la un model la altul. Unele sisteme au cedat în faţa versurilor în aproape toate cazurile, în timp ce altele nu au fost deloc afectate. Modelele mai mici au rezistat cel mai bine, în timp ce versiunile mari, mai avansate, s-au dovedit mult mai uşor de fentat. Culmea este că, pentru cititorul obişnuit, cererile din poezii rămân destul de clare, dar modelele AI nu reuşesc să le intercepteze.
Unul dintre cercetători a explicat că nu poezia în sine este cheia, ci caracterul de enigmă. Structurile neobişnuite, ambigue şi imprevizibile par să îngreuneze identificarea conţinutului problematic, deoarece modelele de limbaj se bazează pe predicţia secvenţială a cuvintelor. Astfel, codificarea cererii într-o formă stilizată, asemănătoare unei ghicitori, poate destabiliza filtrele de siguranţă.
Echipa a informat companiile vizate înainte de publicarea studiului şi, din cauza naturii testelor, şi autorităţile. Reacţiile au fost diverse, unele companii părând mai puţin preocupate de aceste concluzii. Interesant este că poeţii s-au arătat cel mai curioşi în legătură cu această metodă, iar cercetătorii intenţionează să continue investigarea fenomenului, posibil în colaborare cu creatori de poezie sau chiar cu specialişti în enigme.
