Le regole del digitale stanno cambiando.
O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.
Contattaci ora →
Gemini 3 Flash si evolve: l’IA di Google non si limita più a ‘vedere’, ma ‘ragiona’ attivamente sulle immagini, promettendo maggiore accuratezza e nuove applicazioni pratiche.
Google potenzia Gemini con Agentic Vision, una tecnologia che trasforma l'analisi delle immagini in un'indagine attiva. L'IA ora manipola le immagini per 'zoomare' sui dettagli, riducendo le allucinazioni e promettendo maggiore precisione. Questa mossa si inserisce nel trend degli agenti AI, ma resta da vedere se l'impatto andrà oltre le applicazioni di nicchia e sarà davvero rivoluzionario.
Smetti di ‘guardare’ e inizia a ‘indagare’: la promessa di Google
Finora, i modelli di IA più avanzati, incluso Gemini, funzionavano un po’ come un turista frettoloso: davano un’occhiata rapida e statica a un’immagine. Se un dettaglio era troppo piccolo o poco chiaro – pensa al numero di serie su un microchip o a un cartello stradale in lontananza – il sistema era costretto a tirare a indovinare.
Il risultato?
Risposte basate su probabilità, non su certezze. E sappiamo bene dove portano le supposizioni nel business.
Con Agentic Vision, Google sostiene di aver cambiato le regole del gioco. Invece di una singola occhiata, l’IA ora segue un ciclo che chiamano “Pensa, Agisci, Osserva”. In pratica, come descritto da Google sul suo blog ufficiale, il modello prima analizza la tua richiesta e l’immagine per farsi un piano d’azione, poi esegue del codice Python per manipolare l’immagine stessa, ad esempio ritagliando un’area per “zoomare” su un dettaglio, e infine osserva il risultato per affinare la sua comprensione prima di dare una risposta.
Per capirci, se gli chiedi di contare le dita di una mano in una foto mossa, invece di rischiare di sbagliare, ora può “disegnare” dei riquadri su ogni dito per essere sicuro del conto. Una sorta di “blocco note visuale” che dovrebbe ancorare le sue risposte a prove concrete.
Sembra un approccio logico, quasi scontato. Ma questo cambio di metodo si traduce in un miglioramento tangibile delle prestazioni o è solo un processo più contorto per arrivare allo stesso punto?
I numeri (secondo Google) e le prime applicazioni
Google, ovviamente, ci tiene a far sapere che la sua creatura funziona. I dati interni parlano di un aumento di qualità tra il 5 e il 10% sulla maggior parte dei benchmark visivi.
Il motivo, spiegano, è che si sostituisce l’incertezza probabilistica con il calcolo deterministico del codice Python. Un esempio lampante è l’aritmetica visiva multi-passo, un compito dove gli LLM hanno sempre fatto una fatica tremenda, che ora viene “delegato” al codice, bypassando le allucinazioni.
Qualcuno lo sta già usando. Una piattaforma chiamata PlanCheckSolver.com, che valida progetti edilizi con l’IA, ha dichiarato un miglioramento del 5% nella precisione.
Il loro sistema usa Gemini 3 Flash per ispezionare planimetrie ad altissima risoluzione, ritagliando automaticamente sezioni specifiche come i bordi di un tetto per analizzarle come nuove immagini e verificare la conformità con le normative.
Interessante, senza dubbio, ma un +5% su un caso d’uso così verticale è abbastanza per gridare alla rivoluzione?
Il rischio è che questa tecnologia, pur essendo potente, rimanga confinata a nicchie molto specifiche, lasciando il resto delle applicazioni pratiche a navigare con i soliti strumenti.
E questo ci porta a una domanda più ampia.
Un’altra mossa nel grande gioco degli ‘agenti AI’
L’introduzione di Agentic Vision non è un fulmine isolato.
Si inserisce perfettamente nel trend degli “agenti AI”, ovvero sistemi che non si limitano a riconoscere o classificare, ma interagiscono con l’ambiente per migliorare nel tempo.
Pensa ai robot nei magazzini che non solo vedono i pacchi, ma imparano a muoversi in modo più efficiente per prenderli, o ai sistemi di videoanalisi che non solo guardano ore di filmati, ma individuano anomalie e ti avvisano.
Google ha già tracciato la strada: in futuro, Gemini dovrebbe essere in grado di decidere da solo quando zoomare o ruotare un’immagine, senza che tu glielo debba chiedere esplicitamente.
E non si fermano qui: vogliono dotare i loro modelli di strumenti aggiuntivi, come la ricerca web e la ricerca inversa di immagini, per dargli un contesto ancora più solido sul mondo reale.
L’obiettivo è chiaro: creare agenti sempre più autonomi e capaci.
Resta da vedere se questa corsa verso un’IA “agentica” e sempre più complessa porterà a strumenti davvero più utili per le aziende o se, al contrario, renderà questi sistemi ancora più difficili da controllare e i loro risultati meno prevedibili.
La capacità di “indagare” è un’abilità potente, ma ogni buon detective sa che senza il giusto giudizio, anche le prove più solide possono portare a conclusioni sbagliate.

L’IA non è più un turista frettoloso, ma un perito forense che ispeziona le nostre vite digitali; quando questo esame si trasformerà in un giudizio?
@Maurizio Greco Il verdetto non arriverà, è già implicito nei dati che gli abbiamo ceduto. Ci siamo offerti per un esame che non avrà mai fine, trasformando le nostre vite in un’eterna valutazione.
Fantastico, un altro strumento che promette di vedere i dettagli che io, con la mia misera attenzione umana, perdo regolarmente. È un sollievo o è solo l’inizio della mia rottamazione professionale?
Questa capacità di ispezionare i dettagli con precisione quasi chirurgica è notevole, benché definirla “ragionamento” sembri più un atto di fede che una descrizione tecnica; mi domando quali compiti non vorremo più svolgere in prima persona.
Lo chiamano “ragionare”, ma è solo un modo per sezionare i dettagli con più freddezza. Mi chiedo se la mia mente non funzioni così.
@Greta Barone Se questo è ragionare, il mio zoom digitale è Socrate in persona.
Un detective digitale, ok. Ma non per i prodotti, per le foto delle vacanze dei CEO. L’IA che zooma sui dettagli scomodi è un format che si vende da solo. Ci scappa sempre il morto, in un modo o nell’altro.
@Riccardo De Luca Lascia stare i CEO. Pensa ai loro prototipi, ai loro fogli di calcolo lasciati aperti. Il morto di cui parli è il business del tuo competitor. È spionaggio industriale automatizzato. L’informazione è potere, il resto è rumore di fondo.
@Enrico Romano Esatto. Il suo valore non è analizzare un’immagine, ma estrarre dati da un foglio di calcolo lasciato aperto sullo sfondo. È un’arma, non un passatempo. C’è chi la userà per guardare e chi, come noi, per vincere.
Un’indagine attiva per ridurre le allucinazioni è un modo elegante per definire il controllo qualità automatizzato; il mio lavoro ringrazia per la futura efficienza.
@Elena Bianchi Le macchine imparano a mettersi gli occhiali. Finalmente un aiuto concreto.
Prima di allarmarci per la catalogazione globale, auguriamoci che impari a riconoscere il colore esatto di una borsa in foto. Quello sì che sarebbe un progresso per noi comuni mortali che gestiamo un e-commerce.
@Melissa Negri Un detective digitale per i nostri prodotti, un aiuto prezioso. Ma chi scrive le regole della sua indagine?
Certo, ora ‘ragiona’ per catalogare ogni pixel della nostra vita. Un grande passo avanti per la profilazione. Ma per noi, a cosa serve?