Crawler: significato e definizione del termine.
Che cos’è un crawler?
Un crawler web (detto più comunemente crawler) è un tipo di bot, dunque un software automatizzato. Nello specifico, questo particolare bot è programmato per analizzare i contenuti della rete Internet o dei database.
Probabilmente non ti stupirà sapere che un esperto SEO deve conoscere come le sue tasche il funzionamento dei crawler!
Questi software lavorano solitamente per conto dei motori di ricerca. Grazie ai crawler Google, Bing e gli altri motori possono indicizzare periodicamente le nuove pagine nonché quelle aggiornate di recente.
Eh sì, ho detto periodicamente. Non è detto che i tuoi contenuti appena sfornati o appena aggiornati vengano indicizzati immediatamente! Il crawl budget (così si chiama la frequenza con cui il crawler indicizza i tuoi contenuti) tra l’altro è diverso per ogni sito.
Esiste però un metodo che ti permette di aiutare il crawler di Google a trovare le tue pagine. Da buon , ho già provveduto a scrivere un articolo a riguardo. Eccolo: “+16 cose da sapere se vuoi indicizzare un sito come farebbe un SEO“.
Che ne dici di leggerlo?
Crawler: ma come funzionano?
Non ti preoccupare: te lo dice zio Robi!
Prima di tutto il motore di ricerca fornisce al crawler un elenco di URL da analizzare. Tali URL sono spesso il risultato dell’aggiornamento delle sitemap e della segnalazione di nuove pagine da parte dei webmaster.
Il crawler procede con la scansione web ed individua i collegamenti ipertestuali presenti nelle pagine, aggiungendoli all’elenco degli URL da analizzare.
In genere i crawler copiano i contenuti delle pagine scansionate e li forniscono ai motori di ricerca, aggiungendoli all’indice.
A questo punto Google e compagnia cantante si occupano di posizionare le pagine delle SERP e svolgere altri compiti che, diciamocelo, manualmente sarebbe impossibile da compiere entro quest’era geologica!
Sai che puoi suggerire al crawler di Google (Googlebot) quali pagine del tuo sito non indicizzare?
Fidati della mia parola da consulente SEO: in alcuni casi questo comportamento è più che conveniente! Se vuoi scoprire come e perché farlo, leggi il seguente articolo: “Robots.txt, questo sconosciuto: ecco come ottimizzarlo“.
Crawler open source
Forse non lo sapevi, ma anche tu puoi utilizzare i crawler per analizzare web e database: grazie a questi bot puoi tenere d’occhio notizie, concorrenti, social media… Insomma, qualsiasi informazione di tuo interesse.
Ecco di seguito 3 crawler open source che potrebbero aiutarti in questo senso:
- Heritrix: ideato per raccogliere informazioni dai siti senza interferire con i crawler dei motori di ricerca.
- Scrapy: scansiona i siti e ne estrae i dati strutturati.
- Crawley: puoi estrarre i dati di tuo interesse ed esportarli nei formati XML, JSON o CSV.
Conclusioni.
I crawler sono uno strumento indispensabile per indicizzare le pagine web ed aiutano i motori di ricerca a fornire dei risultati sempre aggiornati.
Come ti dicevo, la scansione web è periodica, ma puoi dare una spintarella ai tuoi URL consigliandoli a Google.
Forza, segui subito i miei consigli per l’indicizzazione superveloce delle tue pagine!