Anthropic a încheiat un acord financiar de proporţii cu autori şi editori pentru a stinge un proces colectiv legat de folosirea neautorizată a cărţilor în seturile de antrenare. Valoarea înţelegerii se ridică la aproximativ 1,5 miliarde de dolari şi include un angajament ferm de a elimina copiile piratate din infrastructura de date. Deşi compania nu îşi recunoaşte oficial vina, dimensiunea sumei şi măsurile promise arată că practica utilizării „datelor cu orice preţ” intră într-un declin inevitabil.
Procesul a pornit de la acuzaţiile că modelele de limbaj au fost antrenate pe copii ale cărţilor preluate din aşa-numitele „shadow libraries”, platforme online care distribuie opere fără acordul titularilor de drepturi. Reclamanţii au susţinut că, dincolo de discuţiile despre „fair use”, simpla descărcare şi păstrare a acestor fişiere în sisteme comerciale înseamnă o încălcare directă a drepturilor de autor. Acordul prevede constituirea unui fond de despăgubiri pentru autori, dar şi implementarea unor proceduri stricte de verificare şi curăţare a datelor, audituri periodice şi limitarea accesului la materiale obţinute ilegal.
Distribuirea banilor se va face pe baza unor criterii stabilite de administratori independenţi, ţinând cont de numărul de opere afectate şi de nivelul prezumat de utilizare. Autorii care nu doresc să participe pot continua procese separate. Înţelegerea nu se limitează la compensaţii financiare, ci include şi costuri operaţionale şi angajamente concrete pentru schimbarea modului în care sunt gestionate datele.
Dintr-o perspectivă mai amplă, acordul marchează o schimbare de paradigmă: companiile de AI nu mai pot invoca „inovaţia” ca scuză pentru a folosi date obţinute din surse dubioase. Se profilează un model de reglementare comparabil cu cel din industrii precum alimentaţia sau farmaceutica, unde trasabilitatea, licenţele clare şi auditul extern sunt obligatorii. Pe termen scurt, asta înseamnă costuri mai mari şi lansări mai lente, dar pe termen mediu, parteneriatele legitime cu editorii şi autorii ar putea deveni mai stabile şi mai profitabile.
Acordul evidenţiază şi faptul că discuţia despre „fair use” nu poate ignora provenienţa datelor. Chiar dacă instanţele vor continua să dezbată limitele extragerii de informaţii din opere protejate, utilizarea directă a copiilor piratate este greu de apărat juridic. În plus, companiile sunt presate să îşi documenteze riguros fluxurile de date, de la sursă şi curăţare până la audit şi eliminarea materialelor compromise.
Rămân însă întrebări deschise. Dacă fişierele neautorizate sunt şterse, cum se garantează că „urmele” lor nu mai influenţează modelele? Cum se aplică ştergerea într-o infrastructură cu backupuri şi replicări multiple? Şi ce se întâmplă dacă modelele generează pasaje prea apropiate de operele existente?
Pe lângă impactul asupra pieţei de carte, acordul ar putea încuraja industriile muzicale şi cinematografice să lanseze procese similare. Dacă standardul devine „licenţe sau excludere”, este de aşteptat să apară o piaţă comercială pentru seturi de date licenţiate, cu tarife variabile în funcţie de valoarea şi raritatea conţinutului. Pentru publicul larg, asta înseamnă sisteme AI mai transparente şi mai predictibile din punct de vedere legal.
Acordul urmează să fie confirmat în instanţă, iar Anthropic va trebui să pună în aplicare noile politici de audit şi curăţare şi să dovedească, prin rapoarte periodice, că acestea funcţionează. Pentru companie, este o ocazie de a arăta că „AI responsabilă” nu este doar un slogan. Pentru competitori, este un semnal clar că epoca datelor necontrolate se apropie de sfârşit.