Gemini Robotics, l’AI di Google per l’automazione nel mondo fisico

Gemini Robotics è una nuova famiglia di modelli AI basati su Gemini 2.0 e progettati per portare l'intelligenza artificiale nel mondo fisico attraverso robot di nuova generazione. L'obiettivo è dotare i robot della capacità di ragionamento di Gemini in modo da poter gestire situazioni nuove, interagire con gli umani e gli oggetti in modo intuitivo e svolgere compiti complessi che richiedono destrezza. L'articolo Gemini Robotics, l’AI di Google per l’automazione nel mondo fisico proviene da Innovation Post.

Produzione e Industria Mar 19, 2025 0 21 Aggiungi elenco di lettura

Gemini Robotics, l’AI di Google per l’automazione nel mondo fisico

Gemini Robotics è con ogni probabilità una vera e propria svolta nell’integrazione dell’intelligenza artificiale nel regno della robotica concretizzando la visione di un’intelligenza artificiale autonoma e polivalente nel mondo fisico. L’ambiziosa iniziativa di Google DeepMind mira a trasferire le avanzate capacità di ragionamento multimodale e la “comprensione del mondo”, già consolidate nei modelli Gemini 2.0, nel mondo fisico tramite robot di diverse forme e dimensioni, aprendo così la strada a una nuova era di automazione più intelligente e versatile.

L’obiettivo primario del nuovo modello di AI di Google è dotare i robot di “ragionamento embodied”, una capacità simile a quella umana di comprendere e reagire all’ambiente circostante, prendendo decisioni per portare a termine compiti concreti. Secondo quanto riportato da Google DeepMind, questa nuova famiglia di modelli di AI per il mondo fisico rappresenta un passo fondamentale verso la realizzazione di robot veramente polivalenti, capaci di operare in contesti reali con un livello di intelligenza e autonomia finora impensabile.

Questa tecnologia promette di portare un cambiamento di paradigma nel modo in cui i sistemi robotici comprendono, apprendono e vengono istruiti. I sistemi robotici tradizionali sono infatti costruiti per compiti specifici; Gemini Robotics fornisce invece ai robot una comprensione generale di come funziona il mondo, consentendo loro di adattarsi a un’ampia gamma di attività. La natura multimodale e generalizzata di Gemini ha il potenziale per abbassare la barriera tecnica all’uso e ai benefici della robotica, aprendo la strada a nuove applicazioni e a un utilizzo più diffuso di robot intelligenti nella vita quotidiana.

Le tre qualità di Gemini Robotics per l’automazione avanzata

Per essere realmente utili ed efficaci nel mondo fisico i modelli AI per la robotica devono possedere tre qualità principali: generalità, interattività e destrezza.

Gemini Robotics è stato progettato specificamente per eccellere in queste aree, puntando così a superare le limitazioni dei sistemi robotici tradizionali.

Generalità per adattarsi a nuove situazioni

La generalità deriva dalla profonda comprensione del mondo ereditata dai modelli Gemini. Questa capacità permette ai robot di adattarsi a situazioni inedite, inclusi nuovi oggetti, istruzioni diverse e ambienti sconosciuti, senza la necessità di una riprogrammazione specifica per ogni variazione.

Gemini Robotics dimostra una performance più che doppia in un benchmark completo di generalizzazione rispetto ad altri modelli vision-language-action (VLA): una caratteristica fondamentale per applicazioni di robotica industriale in contesti dinamici e non strutturati.

Interattività per la collaborazione intuitiva Uomo-Robot negli ambienti di lavoro

L’interattività è un altro pilastro fondamentale di un modello di AI dedicato alla robotica. Basato su Gemini 2.0, il sistema è in grado di comprendere e rispondere a comandi espressi in linguaggio naturale e in diverse lingue, facilitando una collaborazione più intuitiva tra operatori umani e robot.

La capacità di reagire a cambiamenti improvvisi nelle istruzioni o nell’ambiente circostante e di continuare l’esecuzione senza ulteriori input è un aspetto che consente di migliorare l’efficienza e la sicurezza negli ambienti di lavoro.

Se un oggetto scivola dalla presa o se un elemento viene spostato, Gemini Robotics è in grado di ripianificare rapidamente le proprie azioni. Si tratta di una qualità essenziale per operare efficacemente nel mondo reale. Questa “steerability” (letteralmente, capacità di sterzare, cambiare direzione) di Gemini Robotics promette di migliorare significativamente la collaborazione uomo-robot in una vasta gamma di contesti industriali e non.

Destrezza per una manipolazione complessa nelle linee di produzione

La destrezza è essenziale per l’esecuzione di compiti complessi che richiedono abilità motorie fini e manipolazione precisa.

Molte attività quotidiane che gli umani compiono senza sforzo richiedono un livello di precisione che finora è risultato difficile da replicare con i robot. Gemini Robotics, al contrario, è in grado di affrontare compiti multi-step estremamente complessi che richiedono una manipolazione accurata. Qualche esempio? Piegare origami, preparare un pranzo o assemblare componenti delicati. La destrezza apre nuove possibilità per l’automazione di processi industriali che richiedono elevata precisione e delicatezza nella manipolazione di oggetti di diverse forme e materiali (si pensi alla manipolazione della frutta fresca, per fare un esempio).

Una famiglia di modelli: Gemini Robotics e Gemini Robotics-ER

La famiglia di Gemini per la robotica è composta da due modelli principali: Gemini Robotics-ER (Embodied Reasoning), un modello avanzato di ragionamento embodied, e Gemini Robotics, il modello vision-language-action (VLA) più avanzato.

Gemini Robotics-ER: potenziare la comprensione del mondo

Gemini Robotics-ER è progettato per migliorare la comprensione del mondo da parte dei robot, con un focus particolare sul ragionamento spaziale.

Questo modello potenzia le capacità esistenti di Gemini 2.0, come l’identificazione di punti e il rilevamento 3D, consentendo ai robot di comprendere meglio le relazioni spaziali e di interagire in modo più efficace con il loro ambiente.

Combinando il ragionamento spaziale con le capacità di codifica di Gemini, Gemini Robotics-ER può generare nuove abilità in tempo reale. Ad esempio, mostrandogli una tazza di caffè, il modello può capire che servirà una presa a due dita per afferrare il manico e una traiettoria sicura per avvicinarsi.

Gemini Robotics-ER eccelle in compiti di embodied reasoning, dimostrando forti capacità in aree critiche per la robotica, che vanno dalla percezione 3D al pointing dettagliato, alla stima dello stato del robot e alla predizione di affordance tramite codice. I benchmark dimostrano che Gemini 2.0, su cui si basa Gemini Robotics-ER, è all’avanguardia nelle capacità di embodied reasoning.

Gemini Robotics: dalla comprensione all’azione

Gemini Robotics si basa sulle solide fondamenta di Gemini Robotics-ER, aggiungendovi la capacità di controllare direttamente i robot.

Questo modello VLA generalista è in grado di eseguire movimenti fluidi e reattivi per affrontare un’ampia gamma di compiti di manipolazione complessi, dimostrando robustezza alle variazioni nei tipi e nelle posizioni degli oggetti, gestendo ambienti sconosciuti e seguendo istruzioni diverse e aperte.

Attraverso un fine-tuning aggiuntivo, il modello può essere “specializzato” per acquisire nuove capacità, dalla risoluzione di compiti che richiedono elevata destrezza, come piegare un origami o giocare a carte, all’apprendimento di nuove funzioni con poche dimostrazioni, fino alla capacità di adattarsi a robot con forme completamente nuove.

Collaborazioni strategiche per accelerare l’innovazione nella Robotica

Google DeepMind sta collaborando con diverse aziende leader nel settore della robotica per guidare il futuro di Gemini Robotics.

Una tra le principali partnership è quella con Apptronik, che mira alla costruzione della prossima generazione di robot umanoidi.

Alcuni “trusted testers”, tra cui Agile Robots, Agility Robotics, Boston Dynamics ed Enchanted Tools, stanno lavorando a stretto contatto con Google DeepMind per testare e fornire feedback sullo sviluppo di Gemini Robotics-ER. Queste collaborazioni sono fondamentali per garantire che Gemini Robotics possa essere applicato in una vasta gamma di contesti industriali e che le sue capacità rispondano alle reali esigenze del settore.

L'articolo Gemini Robotics, l’AI di Google per l’automazione nel mondo fisico proviene da Innovation Post.