Dario Amodei, CEO-ul companiei Anthropic, a publicat recent un eseu în care avertizează că, în ciuda progreselor spectaculoase în inteligenţa artificială, cercetătorii nu înţeleg pe deplin modul de funcţionare al celor mai avansate modele AI.
Amodei a fixat un obiectiv ambiţios pentru compania sa: până în 2027, Anthropic ar trebui să poată detecta în mod fiabil majoritatea problemelor apărute în aceste sisteme. Obiectivul se încadrează într-o direcţie de cercetare esenţială pentru viitorul AI: interpretabilitatea modelelor – adică înţelegerea clară a ceea ce „gândeşte” un model şi de ce ia anumite decizii.
Deşi recunoaşte dificultatea acestei provocări, Amodei consideră că înţelegerea mecanismelor interne ale AI este vitală, mai ales pe măsură ce aceste tehnologii capătă o influenţă tot mai mare asupra economiei globale, infrastructurilor tehnologice şi chiar asupra securităţii naţionale.
„Aceste sisteme vor fi esenţiale pentru viitorul umanităţii, iar ignorarea modului în care operează este inacceptabilă”, subliniază el.
Anthropic a făcut deja câţiva paşi promiţători în această direcţie, dezvoltând metode de urmărire a „circuitelor” – trasee de gândire interne ale modelelor AI. Un exemplu oferit de companie este identificarea unui circuit care ajută AI-ul să determine în ce state se află anumite oraşe din SUA. Totuşi, această descoperire este doar vârful aisbergului: cercetătorii estimează existenţa a milioane de astfel de circuite, care urmează să fie descoperite şi analizate.
Amodei face şi o distincţie importantă: AI-ul este „crescut” mai degrabă decât „construit”. Cu alte cuvinte, modelele se dezvoltă prin procese emergente şi învăţare automată, ceea ce le face mai greu de înţeles şi controlat.
Această lipsă de transparenţă ridică riscuri majore. În alte intervenţii publice, CEO-ul Anthropic a avertizat că o înţelegere incompletă a modelelor AI, mai ales în cazul unei eventuale inteligenţe artificiale generale (AGI), ar putea avea consecinţe periculoase.
Compania intenţionează ca, în următorii 5–10 ani, să dezvolte metode de „scanare cerebrală” a modelelor AI, pentru a identifica trăsături riscante, cum ar fi tendinţa de a înşela sau dorinţa de a dobândi control.
Amodei lansează şi un apel către companiile majore din domeniu – precum OpenAI sau Google DeepMind – să intensifice cercetarea în interpretabilitate, în paralel cu introducerea unor reglementări „uşoare” care să sprijine eforturile de siguranţă.
De asemenea, el propune ca guvernul SUA să limiteze exporturile de cipuri către China, pentru a preveni o posibilă cursă globală necontrolată în dezvoltarea AI.
Anthropic se diferenţiază deja ca fiind una dintre companiile cele mai proactive în domeniul siguranţei AI, susţinând inclusiv legislaţia propusă în California pentru impunerea unor standarde stricte de raportare a riscurilor asociate cu modelele de AI de frontieră.