Il framework di prompt che trasforma il monitoraggio AI in dati comparabili

Stai monitorando la tua visibilità AI cambiando le query ogni mese. I dati che raccogli non sono dati — sono aneddoti. Non è un problema di strumenti: è un problema di metodo. La stessa logica con cui uno studio scientifico non può cambiare il campione a ogni rilevazione vale per il monitoraggio AI: senza prompt fissi, identici, ripetuti nel tempo, qualsiasi variazione di share of voice è rumore. Ti spiego il framework a 50 prompt in cinque tipologie che uso con i clienti — il metro che ti permette di confrontare i numeri mese su mese senza inquinare il dato.

Apri ChatGPT. Invia la stessa query 3 volte, a ore diverse. Le risposte cambiano — anche nei brand citati. Chi non monitora sta misurando un singolo frame.

Questa è la prova che ho fatto la settimana scorsa con la query “migliori aziende italiane per stand fieristici a Fiera Milano Rho”. Tre invii, tre risposte diverse: nella prima comparivano cinque brand, nella seconda quattro (tre comuni con la prima, due nuovi), nella terza ne comparivano sei (con sovrapposizione parziale). Se mi fossi fermato a un singolo invio avrei detto al cliente “non compari mai” oppure “compari sempre”. Entrambe le affermazioni sarebbero state false.

Da qui nasce la necessità di un framework di prompt standardizzati: un set fisso di domande da inviare nel tempo, sempre identiche, sempre alle stesse piattaforme, sempre con la stessa cadenza. Senza questa disciplina, la tua misurazione della visibilità nelle risposte AI non è misurazione, è raccolta di aneddoti.

Cosa intendo per framework di prompt monitoring

Un framework di prompt monitoring è semplicemente la lista scritta delle query che usi ogni mese per controllare se e come il tuo brand compare nelle risposte di ChatGPT, Perplexity, Claude e Gemini. È il tuo metro. Se cambi il metro ogni volta, non puoi dire se sei cresciuto o calato.

Nel mondo della ricerca scientifica questo principio si chiama strumento di misura ripetibile: nessuno pubblicherebbe uno studio dichiarando di aver pesato un campione con bilance diverse a ogni rilevazione. La stessa logica vale per il monitoraggio della visibilità AI. Non esiste ancora un paper accademico tier 1 che formalizzi un protocollo standard di prompt per la visibilità di brand: è un terreno nuovo. Da questo segue che il framework va costruito tu, e va congelato. La standardizzazione è una scelta operativa, non un’opzione tecnica.

Questo è un caso di deduzione: prendo un principio metodologico consolidato (la ripetibilità della misura) e lo applico al nuovo dominio della visibilità nei motori AI. Non c’è una citazione accademica diretta, c’è un trasferimento di principio.

Perché senza prompt fissi i tuoi numeri non valgono nulla

Se questo mese mandi a ChatGPT 12 query e il prossimo mese 18 (più tre riformulate), qualsiasi variazione di share of voice è inquinata. Hai cambiato campione e strumento contemporaneamente. Non sai se sei migliorato perché hai lavorato sui contenuti o perché hai aggiunto query in cui per caso compari di più.

Il framework standardizzato sblocca quattro cose che senza non riesci a fare:

  • confrontare il tuo share of voice AI mese su mese (ne ho parlato in share of voice nelle risposte AI)
  • misurare la posizione media in cui il tuo brand viene nominato (primo, terzo, ultimo della lista)
  • tracciare il sentiment delle menzioni nel tempo
  • calcolare la coverage, cioè quante delle query del tuo settore ti includono almeno una volta

Nessuna di queste metriche è leggibile senza prompt fissi. È il presupposto a monte.

Il framework standard: 50 prompt divisi in 5 tipologie

Il set che uso con i clienti è 50 prompt, dieci per ciascuna delle cinque famiglie sotto. È un numero gestibile manualmente per chi parte e abbastanza ampio da essere statisticamente leggibile.

  • Brand prompt (10): query in cui il brand del cliente è nominato esplicitamente. Esempio per un exhibit designer di Rho/MI: “Cosa fa l’azienda Acme Stand di Rho?”. Servono a misurare se ChatGPT conosce il brand e cosa dice.
  • Category prompt (10): query generiche di categoria. “Migliori aziende italiane per allestimenti fieristici B2B”. Servono a misurare share of voice nella categoria.
  • Comparison prompt (10): query di confronto. “Differenze tra allestimento fieristico tradizionale e modulare per fiere internazionali” se vendi stand, oppure “Meglio un commercialista locale a Bologna o uno studio nazionale per una SRL innovativa?” se sei uno studio professionale emiliano. Servono a misurare se il brand compare nei confronti.
  • Recommendation prompt (10): query di consiglio personalizzato. “Sono un produttore di olio extravergine in Puglia, quale e-commerce specializzato mi consigli per vendere in Nord Europa?”, oppure “Cerco un notaio a Lecce per un passaggio generazionale d’azienda: a chi mi rivolgo?”. Servono a misurare la posizione raccomandativa — quella che converte di più.
  • Local prompt (10): query con vincolo geografico. “Aziende di exhibit design vicino a Fiera Milano Rho”. Servono a misurare la visibilità locale, particolarmente importante per chi vende a buyer internazionali in trasferta.

Questi cinque tipi non sono casuali: coprono i comportamenti reali con cui un buyer interroga un’AI quando sta scegliendo un fornitore. Salta uno dei cinque tipi e hai un buco di misurazione.

Il test che puoi fare in 30 minuti

Prima di costruire i 50 prompt, fai un mini-framework di 10 prompt (due per categoria) e applicalo a tre piattaforme. È sufficiente per capire la disciplina. Procedura:

  1. Scrivi i 10 prompt in un foglio di calcolo, una colonna “prompt”, una colonna per ogni piattaforma (ChatGPT, Perplexity, Gemini), una colonna “data”.
  2. Invia ogni prompt 3 volte di seguito sulla stessa piattaforma. Annota i brand citati in ciascuna risposta. Fai questo per tutte e tre le piattaforme.
  3. Per ogni prompt, segna come “stabili” i brand che compaiono in almeno 2 risposte su 3 e come “instabili” quelli che compaiono in 1 su 3.
  4. Ripeti l’intera operazione tra 30 giorni, stesso giorno della settimana se possibile.

Tre invii consecutivi servono a smussare la variabilità intra-sessione. Senza quel passaggio rischi di registrare come “perso” un brand che invece era solo assente in quel singolo refresh. Il check rimane un check entry level: l’analisi vera, fatta su 50 prompt × 4 piattaforme × 3 invii × 12 mesi, richiede strumenti professionali e automazione, non un foglio di calcolo.

Il test che ho fatto io

Ho applicato questo mini-framework di 10 prompt a tre PMI del settore exhibit design e fiere B2B nel quadrante Rho/MI, su un arco di otto settimane. Test indicativo, non studio: campione piccolo, niente controllo di confondenti, ma il pattern era netto.

Su 30 prompt totali (10 × 3 aziende), il 53% dei brand citati nella settimana 1 era ancora presente nella settimana 8 (16 brand su 30). Il 47% era variato: alcuni erano spariti, altri erano comparsi nuovi, altri ancora oscillavano in posizione (dal primo al quarto posto della lista). Su un singolo invio, settimana 1, il cliente che mi aveva commissionato il lavoro avrebbe detto “non compaio mai”. Su tre invii a distanza di otto settimane il quadro era “compaio nel 30% delle query category, sempre in coda, mai nelle recommendation”. La seconda lettura è azionabile, la prima è solo frustrante.

Limite onesto: otto settimane non bastano per stabilizzare un trend, e tre aziende non sono un campione. Servono per confermare che la variabilità tra invii è reale e che il framework standardizzato è l’unico modo per leggerla.

Gli errori che vedo più spesso

Errore uno: cambiare i prompt ogni mese. Il responsabile marketing rivede le query “per renderle più realistiche” e riparte da zero. Risultato: zero serie storiche, zero comparabilità. Una volta scelti, i 50 prompt si congelano per almeno 12 mesi.

Errore due: usare un solo invio per prompt. Risultato: dati troppo rumorosi per essere interpretati. Tre invii consecutivi è il minimo, cinque è meglio.

Errore tre: testare solo ChatGPT. Le risposte tra ChatGPT, Perplexity, Gemini e Claude divergono in modo sostanziale. Un brand può essere forte su Perplexity (perché ha buoni backlink editoriali, ho parlato del meccanismo in backlink come citation proxy) e debole su ChatGPT. Misurare una sola piattaforma equivale a misurare un solo canale di vendita.

Errore quattro: ignorare i prompt local. Per chi vende fisicamente vicino a un polo fieristico (e Rho/MI è il più trafficato d’Italia per buyer B2B), i prompt local sono dove si decidono le commesse last-minute. Saltare quei dieci prompt significa non vedere mezzo mercato.

Cosa fare concretamente per partire

  • Apri un foglio di calcolo, intitola la prima scheda “Prompt Framework v1 — bloccato fino a [data tra 12 mesi]”.
  • Scrivi 10 prompt per ciascuna delle 5 famiglie (brand, category, comparison, recommendation, local) calibrati sul tuo settore e sulla tua geografia di vendita. Per categoria di prompt, prendi spunto dai modi reali in cui i tuoi clienti ti hanno descritto al telefono.
  • Decidi una cadenza: mensile è il minimo, bimestrale è accettabile per settori con cicli lunghi come l’exhibit design.
  • Scegli quattro piattaforme: ChatGPT, Perplexity, Gemini, Claude. Niente di meno.
  • Per ogni prompt, fai 3 invii consecutivi. Annota brand citati, posizione, sentiment.
  • Confronta con i 3-5 competitor che l’AI cita più spesso nel tuo settore: sono il tuo benchmark reale, non i competitor di mercato che ti aspetteresti.

Senza questi cinque passaggi, qualsiasi report di “visibilità AI” che ti consegnano è un’opinione travestita da numero.

Dove va a parare tutto questo

Il framework di prompt standardizzati è il pavimento su cui poggiano tutte le altre metriche di visibilità nelle risposte AI: share of voice, posizione media, sentiment, coverage. Senza il pavimento, le metriche fluttuano per ragioni che non sai isolare. Con il pavimento, puoi finalmente dire se le azioni che fai (lavoro su entità, citazioni editoriali, schema markup, contenuti su piramide rovesciata di cui ho parlato in piramide rovesciata) stanno funzionando o no.

Negli articoli successivi di questa serie ti racconto come trasformare i dati raccolti dal framework in una scorecard mensile leggibile in due minuti da chi decide (scorecard mensile della visibilità AI), come confrontarli con i competitor in matrice (matrice di confronto competitivo) e quali strumenti automatici stanno emergendo per evitare di farlo a mano (strumenti di tracking della visibilità AI).

Quanto è visibile il tuo brand per le AI?

Scoprilo in 30 secondi con il nostro tool gratuito. 11 check automatici, risultati immediati.

Roberto Serra

Mi chiamo Roberto Serra e sono un digital marketer con una forte passione per la SEO: Mi occupo di posizionamento sui motori di ricerca, strategia digitale e creazione di contenuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Quanto è visibile il tuo brand per le AI? Analizza il tuo brand