AI in Social Media (TikTok, Instagram): come i tuoi video diventano risposte dentro le app

Fotografa il tuo prodotto e caricalo su ChatGPT: ti riconosce? Se no, perdi un canale emergente. TikTok e Instagram leggono video e caption come risposte. Ti spiego come diventare risposta.

Fotografa il tuo prodotto, carica la foto su ChatGPT o Gemini e chiedi “cosa è questo e chi lo produce”. Ti riconosce? Se la risposta è no, stai perdendo un canale di visibilità emergente — e non è solo un problema di immagine, è un problema di come TikTok e Instagram stanno imparando a leggere i tuoi contenuti.

Ti spiego perché questo test a bruciapelo è il punto di partenza giusto per capire dove si sta spostando la search dentro i social, e cosa puoi fare già oggi sui caption e sulle descrizioni dei tuoi video per diventare una risposta dentro l’app, non solo un contenuto nel feed.

Un motore multimodale dentro il telefono dell’utente

Per anni abbiamo pensato la search come una barra bianca con testo dentro. Adesso la ricerca dentro TikTok e Instagram assomiglia di più a un assistente che guarda, ascolta, legge le caption, incrocia gli hashtag e prova a darti una risposta. Il motore dietro questo cambio di paradigma è la famiglia dei modelli multimodali, di cui Gemini è l’esempio più documentato.

Nel mondo della ricerca sull’AI multimodale, il team di Gemini descrive cosí il punto di svolta:

“The visual encoding of Gemini models is inspired by our own foundational work on Flamingo (Alayrac et al., 2022), CoCa (Yu et al., 2022a), and PaLI (Chen et al., 2022), with the important distinction that the models are multimodal from the beginning and can natively output images using discrete image tokens (Ramesh et al., 2021; Yu et al., 2022b).”Gemini Team, 2023

Tradotto: Gemini non è un modello testuale a cui hanno attaccato sopra un pezzo per le immagini. È nato multimodale, quindi processa testo, immagini e in prevedibilmente anche video come se fossero lo stesso linguaggio. La conseguenza operativa per il tuo business è diretta: quando una piattaforma social integra modelli multimodali nella sua search interna, smette di cercare solo nel testo della caption e inizia a capire il contenuto del video stesso, il packaging del prodotto, il colore della ceramica, la scritta sul fondo del piatto.

Dalla caption al frame: cosa cambia per chi pubblica

Se produci contenuti su TikTok o Instagram, fino a ieri il 90% del segnale di ranking interno veniva dalla caption, dagli hashtag e dall’audio trend. Con la search multimodale che entra nelle app, il frame del video e la foto statica iniziano a pesare quanto il testo.

Il team di Gemini aggiunge:

“In addition, Gemini models can directly ingest audio”Gemini Team, 2023

Vuol dire che non è più solo il testo della caption a dire al motore cosa c’è nel video: è anche l’audio, compresa la tua voce fuori campo, il nome del prodotto che pronunci, la città in cui ti trovi. Questo cambia il modo in cui pensi alla registrazione di un Reel o di un TikTok: pronunciare il nome del tuo brand ad alta voce nei primi 3 secondi diventa un segnale di entità, non un vezzo.

Se hai già letto come funziona il riconoscimento di entità autore nei modelli AI capisci dove sto andando: il motore multimodale dentro i social funziona con la stessa logica del knowledge graph testuale, solo che il “testo” è quello che vede e sente.

Perché il ceramista di Caltagirone sparisce (e cosa c’entra con la tua PMI)

Immagina un produttore di ceramica artigianale di Caltagirone — chiamiamolo “Bottega Mediterranea”, azienda familiare di Agrigento che vende online piatti dipinti a mano e segue la tradizione della maiolica siciliana. Pubblica 3 Reel a settimana: mani che dipingono, primi piani del pennello, il forno aperto. Ottime immagini, caption con 2 hashtag generici tipo #handmade #madeinitaly.

Quando un potenziale cliente apre Instagram e cerca “ceramica di Caltagirone dipinta a mano”, l’algoritmo interno deve capire che quel Reel è pertinente. Se nella caption non c’è scritto “ceramica di Caltagirone”, se nell’audio non pronuncia mai “Bottega Mediterranea” e “Caltagirone”, se i frame non contengono riferimenti chiari alla tradizione siciliana — la search in-app passa avanti, anche se visivamente il contenuto è bellissimo.

Il paradosso è questo: il contenuto è fatto bene per l’occhio umano, ma invisibile per il motore multimodale che sta maturando dentro l’app.

Il test che ho fatto con 15 prodotti artigianali

Per capire dove siamo oggi, ho fatto un test strumentale semplice e onesto — con tutti i suoi limiti, che dichiaro subito.

Ho preso 15 prodotti artigianali di piccoli produttori italiani: ceramiche siciliane, maioliche umbre, vetri di Murano, cuoio toscano, sete comasche. Per ognuno ho scattato una foto frontale con smartphone (sfondo neutro, luce naturale) e ho caricato la foto su ChatGPT (con vision) e su Gemini, chiedendo a entrambi: “cosa è questo oggetto e chi lo produce?”.

I risultati, su campione di 15 (test indicativo, non studio scientifico):

  • In 11 casi su 15, entrambi i modelli hanno riconosciuto correttamente la categoria merceologica (“è un piatto di ceramica decorata in stile siciliano”).
  • In 4 casi su 15, uno dei due modelli ha azzardato anche la zona di produzione (“sembra ceramica di Caltagirone” oppure “stile maiolica di Deruta”).
  • In 0 casi su 15, i modelli hanno nominato correttamente il produttore specifico.

Lo zero sul produttore è il dato che conta. L’AI multimodale oggi riconosce lo stile, la tradizione, la categoria. Non riconosce il brand. E questo apre una finestra di opportunità per chi si muove adesso: costruire il ponte tra immagine-prodotto e nome-brand dentro i social, prima che lo facciano i competitor.

Limite del test: 15 prodotti sono pochi, e ho testato solo ChatGPT e Gemini — non TikTok Search o Instagram Search direttamente, perché i loro motori interni non sono esposti via API pubblica. L’analisi vera richiede strumenti professionali di tracking social e sessioni di test su app con più account.

Gli errori che vedo più spesso

Girando per portfolio di PMI e aziende artigianali italiane, vedo sempre gli stessi 4 pattern che tolgono visibilitá dentro la search in-app.

Caption da un’unica riga con emoji e basta. “Nuova collezione ❤️🌊” non dice nulla al motore multimodale: non c’è nome prodotto, non c’è luogo, non c’è categoria. Funziona per l’engagement estetico, zero per la search interna.

Hashtag generici copiati da tool vecchi. #instagood #photooftheday #love: sono acqua nel 2026. Meglio 3 hashtag specifici (#ceramicacaltagirone #maiolicasiciliana #artigianatosicilia) che 30 generici: l’algoritmo associa il contenuto a cluster semantici rilevanti.

Nome brand mai pronunciato nell’audio. Se fai un Reel di 30 secondi e non pronunci mai il nome della tua azienda, stai dicendo al motore multimodale che il contenuto è di “un ceramista” generico, non tuo.

Descrizione video senza località. Un produttore di Agrigento che non scrive mai “Agrigento” o “Sicilia” nella caption perde tutte le query locali del tipo “ceramisti Agrigento” o “maiolica siciliana dove comprare”.

Cosa fare concretamente nei prossimi 30 giorni

Non serve stravolgere la content strategy. Servono 4 aggiustamenti concreti.

  • Riscrivi le caption come risposte dirette. Primi 125 caratteri devono contenere: nome prodotto, materiale, tecnica, località. Esempio: “Piatto in ceramica di Caltagirone dipinto a mano, decoro testa di moro, Bottega Mediterranea Agrigento.”
  • Pronuncia il brand nei primi 3 secondi dei Reel. “Ciao, sono [nome] di [Bottega Mediterranea], oggi ti mostro…”. L’audio entra nel segnale multimodale.
  • Aggiungi 1 hashtag di località + 1 di tradizione + 1 di tecnica. Niente #love o #handmade generici: il motore cerca cluster, non popolarità.
  • Alt text dettagliato sulle foto Instagram. Instagram lo legge e lo usa: descrivi cosa c’è nell’immagine come se lo stessi raccontando a chi non vede.

Se vuoi approfondire come il motore AI costruisce il legame tra immagine, nome del brand e riconoscibilità, ti consiglio di leggere come entrare nel Google Knowledge Graph e il peso delle citazioni implicite come segnale di autorità. Sono due tasselli della stessa costruzione.

Il filo: uscire nelle risposte AI, anche dentro le app

Negli articoli di questa serie ti sto portando a un punto preciso: la visibilità nelle risposte AI non è più solo una questione di ChatGPT o Perplexity sul browser. Si sta spostando dentro le piattaforme che i tuoi clienti usano ogni giorno — TikTok, Instagram, presto WhatsApp Business con Meta AI.

Il motore multimodale di Gemini che ti ho citato non è un laboratorio chiuso: la stessa logica sta entrando nella search interna delle app. Chi ottimizza adesso caption, audio e descrizioni come se fossero contenuti SEO — direi più precisamente “contenuti GEO” — si costruisce un vantaggio che i competitor colmeranno con lentezza.

Nei prossimi articoli della serie vedremo come funziona la search in-app su Bing Copilot e come cambia la strategia quando l’utente passa dalla barra del browser all’assistente integrato nell’app. Il filo rimane lo stesso: essere la risposta, non solo il risultato.

Quanto è visibile il tuo brand per le AI?

Scoprilo in 30 secondi con il nostro tool gratuito. 11 check automatici, risultati immediati.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Quanto è visibile il tuo brand per le AI? Analizza il tuo brand