Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
Dalla robotica alla realtà aumentata, l’obiettivo finale di Google DeepMind sembra essere lo sviluppo di un’intelligenza artificiale generale in grado di comprendere e interagire con il mondo reale.
Google DeepMind presenta D4RT, un'intelligenza artificiale che promette di ricostruire il mondo in 4D partendo da un semplice video, con velocità 300 volte superiori. Al di là delle sbandierate applicazioni in robotica e realtà aumentata, la vera ambizione sembra essere un'altra: creare 'world models' per la realtà fisica, un passo cruciale verso la sfuggente Intelligenza Artificiale Generale.
Google DeepMind e la pretesa di insegnare all’IA a “vedere” in 4D
Google DeepMind ha annunciato D4RT, un nuovo modello di intelligenza artificiale che, a loro dire, rappresenta un passo avanti gigantesco nella capacità delle macchine di interpretare il mondo in movimento. L’idea di fondo è semplice da spiegare, ma tecnicamente un’impresa: trasformare un video 2D, piatto come lo schermo su cui lo guardi, in una ricostruzione 3D completa e dinamica, che tiene conto non solo dello spazio ma anche del tempo (la quarta dimensione, appunto).
La promessa è quella di una velocità fino a 300 volte superiore rispetto ai metodi precedenti.
Un balzo in avanti notevole, certo, ma è qui che dobbiamo iniziare a farci qualche domanda.
Ma come ci sono riusciti?
Non si tratta di un semplice potenziamento hardware, ma di un cambio di prospettiva radicale nel modo in cui l’IA elabora le informazioni.
Un approccio basato sulle domande, non sulle sequenze
I metodi tradizionali, per farla breve, analizzano un video fotogramma per fotogramma, cercando di mettere insieme i pezzi come in un puzzle complesso e dispendioso. D4RT, invece, ribalta il tavolo.
Invece di procedere per passaggi sequenziali, pone una domanda unificata a una rappresentazione neurale della scena: “Dove si trova un determinato pixel di questo video nello spazio 3D, in un momento qualsiasi, visto da una specifica telecamera?”.
Come descritto da Google stessa, un piccolo decodificatore interroga questa rappresentazione per ottenere risposte specifiche, e ogni interrogazione viene processata in parallelo. Questo approccio permette di ottenere un miglioramento delle prestazioni che, sulla carta, è impressionante: un video di un minuto viene elaborato in circa cinque secondi su un singolo chip TPU, un compito che prima richiedeva fino a dieci minuti.
Il risultato è una comprensione del mondo in movimento che appare più solida e continua, senza quegli artefatti o duplicazioni di oggetti che affliggevano le tecnologie precedenti.
Tutto questo è tecnicamente interessante, certo.
Ma la vera domanda è: a cosa serve concretamente?
E qui, come sempre quando si parla di colossi come Google, le risposte sono tanto affascinanti quanto degne di attenzione.
Tra robotica, realtà aumentata e l’ambizione di un'”intelligenza generale”
Le applicazioni pratiche sbandierate da DeepMind sono principalmente tre. La prima è la robotica: un robot che si muove in un magazzino o in una casa ha bisogno di una percezione spaziale istantanea per non urtare persone o oggetti. La seconda è la realtà aumentata (AR), dove la capacità di comprendere una scena in tempo reale è fondamentale per sovrapporre oggetti digitali al mondo fisico in modo credibile. DeepMind sostiene che D4RT rende l’implementazione su dispositivi mobili “una realtà tangibile”.
Sarà davvero così semplice portare questa potenza di calcolo sui nostri smartphone senza compromessi?
Staremo a vedere.
Infine, c’è il vero obiettivo strategico, quello che sta sullo sfondo di molte di queste ricerche: la creazione di “world models”, modelli mentali della realtà fisica. Un’IA che capisce veramente come funziona il mondo, distinguendo il movimento della telecamera da quello degli oggetti e dalla geometria statica, è considerata un tassello fondamentale per raggiungere la tanto discussa intelligenza artificiale generale (AGI).
E questo, diciamocelo, è il vero traguardo a cui puntano.

Ci sta che dopo aver mappato tutta la baracca con questi modelli, il passaggio successivo sia suggerire i comportamenti “migliori” da tenere al loro interno, per guidare le persone verso certi risultati.
Un modello del mondo fisico creato da un’azienda privata. La loro presunzione di “vedere” la realtà mi inquieta. Non imparano a interagire con il mondo, costruiscono una versione che possono controllare.