Google DeepMind traint ‘denkende’ robots met Gemini Robotics 1.5

google deepmind logo

Twee nieuw robotmodellen van Google DeepMind kunnen denken voor ze actie ondernemen.

Google DeepMind heeft twee robotmodellen onthuld die samenwerken om robots te laten nadenken vóór ze handelen. De Gemini Robotics 1.5 (actie-model) en Gemini Robotics-ER 1.5 (embodied reasoning-model) brengen generatieve AI-principes naar de echte wereld. Dat moet robots veel veelzijdiger maken dan ze nu zijn.

Twee modellen: één die denkt, één die doet

DeepMind bouwt voort op de Gemini-foundation-modellen, maar optimaliseerde deze specifiek voor robotica. De aanpak bestaat uit twee gescheiden maar samenwerkende componenten:

  • Gemini Robotics-ER 1.5 is een vision-language model dat redeneert over een taak. Het verwerkt visuele input en tekstuele instructies, kan tools (zoals zoeken op het web) raadplegen en genereert een stappenplan in natuurlijke taal: wat moet er gebeuren en waarom.
  • Gemini Robotics 1.5 is een vision-language-action (VLA) model dat die stappen omzet in daadwerkelijke robotacties zoals grijpen, bewegen en zichzelf positioneren. Het model maakt zelf ook korte, praktische overwegingen maakt om fouten of onhandige bewegingen te vermijden.

Die scheiding weerspiegelt hoe mensen vaak werken: eerst plannen, daarna uitvoeren.

Leren over verschillende modellen heen

Een belangrijke winst is volgens DeepMind het vermogen om vaardigheden over verschillende “embodiments” te transfereren. Een model dat met twee armen leert werken kan zonder uitgebreide training toegepast worden op een menselijke robot met complexere handen (Apollo). Zo moet er niet voor elk robotplatform een compleet nieuw model te bouwen.

Wat kunnen ze doen?

DeepMind haalt enkele voorbeelden aan zoals het sorteren van wasgoed: het ER-model verdeelt de taak in stappen (identificeer wit/kleur, pak kledingstuk, controleer materiaal, leg in juiste bak) en het actie-model voert die stappen fysiek uit. Meer realistische gebruiksscenario’s zijn complexere montage-taken, laboratoriumautomatisering en magazijnwerk waar omgevingen variëren.

Volgens DeepMind opent deze werkwijze de deur naar algemenere, snel inzetbare robots.

Grenzen en beschikbaarheid

DeepMind benadrukt echter dat we nog niet toe zijn aan een huishoudrobot zijn die zelfstandig de was doet. Gemini Robotics-1.5 (het actie-model) is voorlopig beperkt tot vertrouwde testers; het ER-model met “simulated reasoning” is nu beschikbaar via Google AI Studio voor ontwikkelaars die robotinstructies willen genereren en experimenteren met embodied workflows.