Test manuali su ChatGPT, Claude e Perplexity: il tetto invisibile che ti blocca

Misuri la visibilità AI aprendo il browser e digitando prompt uno alla volta? Ti fermi al primo strato. Ti spiego come automatizzare i test su ChatGPT, Claude e Perplexity via API.

Ricordo quando, intorno al 2012, chi sapeva fare query SQL direttamente sul proprio database di Google Analytics aveva un vantaggio ingiusto sui concorrenti. Mentre tutti aprivano la dashboard e cliccavano report preconfezionati, una manciata di marketer scaricava dati grezzi, li incrociava con il CRM e capiva cose che gli altri non vedevano. Stesso strumento, livello di accesso diverso, risultati su un altro pianeta.

Oggi è la stessa cosa con le API di ChatGPT, Claude e Gemini: ti serve automazione. Se misuri la tua visibilità nelle risposte AI aprendo il browser e digitando prompt uno alla volta, ti stai fermando al primo strato. Funziona per capire come si comporta un singolo motore su una singola query. Non funziona per capire pattern, stagionalità, drift dei modelli, differenze tra geografia e settore.

Ti spiego come si rompe quel tetto, partendo da un caso che ho seguito in una zona che conosco bene: le cantine vinicole del Monferrato.

Perché 30 prompt manuali non bastano per dire “sono visibile”

Quando un imprenditore mi scrive “ho provato a chiedere a ChatGPT del mio brand e non esce mai”, la prima domanda che gli faccio è: quante volte hai chiesto, con quante varianti, su quanti motori, in quanti giorni diversi.

Nove volte su dieci la risposta è: “tre o quattro prompt, su ChatGPT, in un pomeriggio”. Su quel campione non si decide niente. I modelli AI generano risposte probabilistiche: la stessa domanda, fatta due volte a distanza di un’ora, può produrre liste di citazioni diverse. Una singola query è un dato, non un trend.

Il problema è che testare a mano 50 varianti di prompt, su 4 motori, ripetuto per 7 giorni, fa 1.400 chiamate. Nessun essere umano lo fa con la testa lucida. E qui entra l’automazione via API.

Cosa cambia quando usi le API invece del browser

Le API di OpenAI, Anthropic, Google e Perplexity sono interfacce programmatiche: invece di aprire chat.openai.com e scrivere, mandi una richiesta HTTP con il tuo prompt e ricevi indietro il testo della risposta in formato strutturato. Costo per chiamata sotto il centesimo nella maggior parte dei modelli base.

Il salto non è tecnologico. È metodologico. Con un’interfaccia browser ragioni per singole conversazioni. Con le API ragioni per dataset di risposte. Cambia tutto: puoi confrontare, filtrare, aggregare, monitorare nel tempo.

Nel mondo della misurazione SEO degli anni 2010 è successo esattamente questo passaggio: prima si guardava il posizionamento Google una keyword alla volta, poi sono arrivati i tool che monitoravano migliaia di keyword automaticamente e hanno cambiato il mestiere. Da questo segue che chi oggi continua a misurare la visibilità AI a mano sta facendo SEO con il browser nel 2010.

Il caso Monferrato: cantine, Grignolino, Barbera e 480 prompt

Lavoro da qualche mese con una piccola realtà di consulenza enologica vicino a Casale Monferrato (AL) che segue una decina di cantine della zona. Tutte producono Grignolino e Barbera del Monferrato, alcune anche Cortese e Freisa. Tutte hanno sito, schede prodotto, qualche menzione su guide vini, profili Google Business curati.

La domanda del cliente era semplice: “quando un appassionato chiede a ChatGPT ‘migliori cantine di Grignolino’ o ‘cosa visitare in Monferrato per il vino’, i miei produttori escono o no?”.

Per rispondere ho costruito uno script Python molto semplice. Niente di sofisticato: una lista di 60 prompt (varianti su Grignolino, Barbera del Monferrato, enoturismo nell’alessandrino, abbinamenti, vendemmia tardiva, cantine biologiche), un ciclo che li manda alle API di ChatGPT, Claude, Gemini e Perplexity, un foglio Excel che salva ogni risposta con data, motore, prompt e testo completo. 60 prompt × 4 motori × 2 ripetizioni = 480 chiamate, completate in circa due ore, costo totale sotto i 4 euro.

Cosa è uscito dal dataset, in sintesi:

  • 6 cantine del Monferrato compaiono almeno una volta. Le altre 4 mai, su nessun motore.
  • Su Perplexity le citazioni sono concentrate su 3 fonti: una guida vini nazionale, un portale di enoturismo regionale, Wikipedia. Chi non è citato lì è invisibile.
  • Su ChatGPT le risposte sono più generaliste e citano spesso i Consorzi di tutela invece dei singoli produttori.
  • I prompt geolocalizzati (“vicino Casale Monferrato”, “in provincia di Alessandria”) cambiano completamente la lista: alcune cantine compaiono solo se la query è geografica.

Test indicativo, non studio scientifico. Campione di 60 prompt è un’istantanea di un mercato di nicchia, non una base statistica generalizzabile. Però il pattern è abbastanza chiaro da prendere decisioni operative.

Cosa puoi automatizzare anche tu in un pomeriggio

Non serve essere sviluppatori. Serve avere chiaro cosa vuoi misurare e affidare la parte tecnica a chi sa scrivere uno script di 50 righe. Le componenti minime:

  • Lista prompt rappresentativi del tuo settore: 30-80 query reali che un cliente potenziale farebbe a un’AI. Includi varianti geografiche, varianti di intento (informativo, comparativo, transazionale), varianti di linguaggio.
  • Chiavi API dei motori che ti interessano: ChatGPT/OpenAI, Claude/Anthropic, Gemini/Google, Perplexity. Costo cumulato per un test mensile: 5-30 euro a seconda del volume.
  • Database semplice dove salvare le risposte: anche un foglio Google va bene per partire. L’importante è che ogni riga abbia data, motore, prompt, risposta integrale.
  • Routine di analisi: conteggio menzioni del tuo brand, dei competitor, delle fonti citate da Perplexity. Sentiment del contesto in cui appari (positivo, neutro, comparativo).

L’analisi vera, fatta bene, richiede comunque strumenti professionali e qualcuno che sappia leggere il dataset. Quello che ottieni con uno script casalingo è il primo livello: capire se sei visibile e dove non lo sei. Per il “perché” servono altri pezzi del puzzle, alcuni dei quali ho raccontato in questa serie quando ti ho spiegato come l’AI riconosce le entità autore nel named entity recognition e come pesano le citazioni implicite verso il tuo dominio in implicit reference weight.

Gli errori che vedo più spesso quando le PMI provano a misurare a mano

  • Pochi prompt, decisione affrettata. Tre query e si conclude “l’AI mi odia”. Tre query non bastano nemmeno a misurare la temperatura della stanza.
  • Un solo motore. Solo ChatGPT, e poi si scopre che su Perplexity (dove ci sono le citazioni cliccabili e un pubblico più orientato al confronto) la situazione è diversa.
  • Prompt scritti in italiano da agenzia, non da cliente. “Migliori produttori di Grignolino DOC certificato biologico Piemonte 2024” non lo cerca nessuno. Lo cerca la concorrenza per impressionare. Il cliente vero scrive “vino rosso leggero Monferrato consiglia”.
  • Nessuna ripetizione nel tempo. Una misura una volta sola non dice niente sulla stabilità. I modelli si aggiornano, gli indici di Perplexity cambiano, le fonti citate ruotano. Serve almeno un passaggio mensile.

Cosa fare lunedì mattina

  1. Scegli 30 prompt che un tuo cliente reale potrebbe fare a un’AI. Falli scrivere a un cliente, non a te.
  2. Decidi quali motori monitorare. Per la maggior parte delle PMI italiane: ChatGPT, Gemini, Perplexity sono il minimo sindacale.
  3. Affida a chi sa programmare 1-2 giornate per costruire lo script di test e il foglio di output. Costo orientativo basso, risultato riutilizzabile per anni.
  4. Confronta le tue menzioni con i 3-5 competitor che l’AI cita più spesso nel tuo settore. Quello è il tuo benchmark, non un numero astratto.
  5. Rifai il test ogni mese con la stessa lista di prompt. Solo così vedi se quello che fai funziona.

Misurare per sapere dove intervenire

Tutto il filo di questa serie su come misurare la visibilità nelle risposte AI porta qui: non puoi migliorare ciò che non misuri, e non puoi misurare seriamente con il browser. Le API esistono per questo, costano poco, e ti danno la base dati per decisioni che altrimenti faresti a sentimento.

Nei prossimi articoli di questa serie vado nel dettaglio di come strutturare una dashboard di monitoraggio continuo, come confrontare share of voice tra te e i competitor sui motori AI, e come correlare i picchi di citazione AI con il traffico organico che arriva sul sito. Sono i pezzi che, messi insieme, ti danno il quadro completo.

Quanto è visibile il tuo brand per le AI?

Scoprilo in 30 secondi con il nostro tool gratuito. 11 check automatici, risultati immediati.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Quanto è visibile il tuo brand per le AI? Analizza il tuo brand