TurboQuant: pariul Google care ar putea reduce drastic costurile AI

Inteligenţa artificială nu mai duce lipsă de idei sau modele, ci de resurse, iar una dintre cele mai mari provocări rămâne memoria necesară pentru rularea acestor sisteme la scară largă. În acest context, Google vine cu o soluţie care ar putea schimba modul în care funcţionează chatbot-urile moderne.

Inginerii companiei au dezvoltat TurboQuant, un sistem capabil să reducă de până la şase ori memoria utilizată în timpul conversaţiilor, fără pierderi semnificative de performanţă. Este genul de optimizare pe care industria o aştepta de mult, mai ales în contextul costurilor tot mai mari.

Modelele AI, inclusiv cele folosite în chatbot-uri precum ChatGPT, depind de un spaţiu temporar numit KV cache, unde sunt păstrate informaţiile necesare pentru menţinerea coerenţei într-o conversaţie. Cu cât acest spaţiu este mai mare, cu atât modelul devine mai capabil, însă consumul de memorie creşte rapid. În scenarii complexe, necesarul poate ajunge la zeci de gigabytes pentru un singur flux, iar la nivel global costurile devin uriaşe.

TurboQuant intervine exact aici, comprimând aceste date în timp real, nu doar înainte de rulare. Tehnologia foloseşte procesul de „quantization”, reducând cantitatea de informaţie necesară pentru reprezentarea datelor, fără a pierde esenţa acestora.

Spre deosebire de metodele clasice, compresia este dinamică şi are loc în timpul funcţionării modelului. Datele sunt transformate în forme matematice mai eficiente şi ajustate astfel încât rezultatele finale să rămână precise. Sistemul combină tehnici precum PolarQuant şi QJL pentru a menţine acurateţea chiar şi după reducerea volumului de informaţie.

Impactul potenţial este semnificativ. Modelele AI ar putea rula pe hardware mai puţin performant, ar putea gestiona mai multe conversaţii simultan şi ar reduce costurile de operare pentru companii. Pe termen lung, acest tip de optimizare ar putea face inteligenţa artificială mai accesibilă, inclusiv pe dispozitive personale.

Totuşi, TurboQuant se află încă în fază experimentală. Testele au fost realizate pe modele precum Llama 3.1, Gemma sau soluţii dezvoltate de Mistral AI, iar implementarea la scară largă va necesita timp. În plus, tehnologia vizează doar etapa de utilizare a modelelor, nu şi antrenarea acestora, care rămâne extrem de costisitoare.

Chiar şi aşa, direcţia este clară. Reacţiile din piaţă, inclusiv din partea companiilor hardware, arată că astfel de inovaţii pot schimba echilibrul dintre software şi infrastructură în industria AI.

Leave a reply

SONDAJ DE OPINIE

Credeți că premierul Ilie Bolojan ar trebui să demisioneze, dacă PSD îi cere acest lucru?

Follow
Search
Populare acum
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...