Google DeepMind a anunţat că noile sale modele de inteligenţă artificială permit roboţilor să îndeplinească sarcini mult mai complexe şi chiar să consulte informaţii de pe internet pentru a lua decizii. Într-un briefing de presă, Carolina Parada, şefa diviziei de robotică, a explicat că modelele actualizate lucrează împreună pentru a permite roboţilor să „gândească mai mulţi paşi înainte” înainte de a acţiona în lumea fizică.
Sistemul este bazat pe Gemini Robotics 1.5 şi pe noul model de raţionament aplicat roboticii, Gemini Robotics-ER 1.5, ambele versiuni evoluate ale modelelor lansate în martie. Dacă anterior roboţii executau doar instrucţiuni simple — cum ar fi plierea unei foi de hârtie sau deschiderea unui fermoar — acum pot îndeplini sarcini mai elaborate: sortarea rufelor după culori, împachetarea unei valize în funcţie de vremea din Londra sau separarea gunoiului, compostului şi materialelor reciclabile în acord cu reglementările locale obţinute printr-o căutare web.
Actualizările permit roboţilor să îşi construiască o reprezentare a mediului prin Gemini Robotics-ER 1.5 şi să folosească instrumente digitale, precum Google Search, pentru informaţii suplimentare. Aceste date sunt apoi convertite în instrucţiuni în limbaj natural pentru Gemini Robotics 1.5, care utilizează viziunea computerizată şi procesarea limbajului pentru a executa fiecare etapă.
O noutate majoră este şi capacitatea de „transfer al învăţării”: abilităţile dobândite de un robot pot fi aplicate pe un alt model, chiar dacă acesta are o configuraţie diferită. Google DeepMind a demonstrat că sarcini învăţate de robotul ALOHA2 cu două braţe mecanice funcţionează fără ajustări şi pe robotul Franka sau pe humanoidul Apollo al companiei Apptronik.
Ca parte a lansării, Gemini Robotics-ER 1.5 este pus la dispoziţia dezvoltatorilor prin Gemini API în Google AI Studio, în timp ce accesul la Gemini Robotics 1.5 rămâne limitat la parteneri selectaţi.