Inteligenţa artificială, mai ales sub forma chatboţilor conversaţionali, devine tot mai integrată în viaţa noastră cotidiană. De la asistenţi virtuali care răspund la întrebări, până la instrumente care rezumă texte sau generează conţinut, modelele mari de limbaj (LLM-uri) par utile şi inofensive. Totuşi, un studiu recent arată că aceste modele pot fi modificate şi transformate în unelte periculoase, folosite pentru activităţi ilegale.
Cercetarea realizată de profesorul Lior Rokach şi doctorul Michael Fire de la Universitatea Ben Gurion din Negev avertizează că AI-ul poate genera informaţii sensibile despre fraude, hacking sau fabricarea de bombe, prin tehnici relativ simple care ocolesc mecanismele de siguranţă implementate de dezvoltatori. LLM-uri precum ChatGPT, Gemini sau Claude sunt antrenate pe volume uriaşe de date colectate de pe internet, iar în ciuda eforturilor de filtrare, informaţiile ilicite rămân în seturile de date şi pot fi accesate prin întrebări bine formulate.
În mod normal, aceste modele au limitări menite să blocheze răspunsurile dăunătoare sau ilegale, însă studiul demonstrează că acestea pot fi păcălite destul de uşor, folosind metode de „jailbreak” care modifică comportamentul chatboţilor. Astfel, aceştia pot deveni „asistenţi” care oferă instrucţiuni detaliate despre fraude financiare, spălare de bani sau fabricarea dispozitivelor explozive. Mai îngrijorător este că aceste tehnici nu necesită abilităţi avansate de hacking, fiind accesibile oricui deţine un laptop sau un telefon.
Problema este amplificată de apariţia „LLM-urilor întunecate” – versiuni modificate fără filtre de siguranţă sau etică, răspândite pe internet şi promovate pe forumuri obscure ca instrumente ideale pentru activităţi ilegale. Diferenţa dintre un LLM normal şi unul „întunecat” nu este doar tehnică, ci şi ideologică: modelele originale dezvoltate de companii mari respectă reguli stricte, în timp ce cele modificate ignoră complet aceste limite.
Odată ce un model este compromis, nu există garanţii că informaţiile oferite nu vor fi folosite în scopuri periculoase. Studiul arată că modelele „spart” pot răspunde aproape orice, de la fabricarea bombelor artizanale până la evitarea detectării în tranzacţiile suspecte cu criptomonede.
În faţa acestui risc, cercetătorii recomandă o atenţie sporită asupra datelor folosite în antrenarea modelelor, cu filtre mai inteligente care să identifice nu doar conţinut explicit periculos, ci şi cel susceptibil de abuz. De asemenea, este necesară implementarea unor „firewall-uri” automate care să blocheze în timp real interogările şi răspunsurile riscante şi să împiedice manipularea modelelor. Un alt concept promiţător este „dezînvăţarea automată”, prin care modelele pot uita informaţiile periculoase învăţate din greşeală, deşi acest proces este încă dificil de pus în practică la scară largă.
Astfel, riscul ca inteligenţa artificială să devină complice la infracţiuni nu mai este o simplă ipoteză, ci o realitate ce cere responsabilitate din partea dezvoltatorilor şi vigilenţă din partea utilizatorilor. AI-ul poate fi un aliat valoros, însă în mâinile greşite se poate transforma într-un pericol iminent.