Le regole del digitale stanno cambiando.

O sei visibile o sei fuori. Noi ti aiutiamo a raggiungere i clienti giusti — quando ti stanno cercando.

Il crawler di Google si ferma a 2MB: un cambio di paradigma che impatta l’indicizzazione e apre scenari inediti sull’architettura del motore di ricerca.

Google ha finalmente ammesso che Googlebot ignora ogni contenuto oltre i primi 2MB di una pagina web. Questa "trasparenza", che suona più come un diktat, obbliga a ripensare l'ottimizzazione SEO. La rivelazione che Googlebot è solo uno dei tanti client di una piattaforma unificata, e che il rendering ha limiti stringenti, ridisegna completamente le regole del gioco per sviluppatori e SEO.

Il sipario si alza: Google svela il limite di 2MB del suo crawler

Dopo anni di speculazioni e mezze verità, Google ha deciso di fare un po’ di chiarezza su come il suo famigerato Googlebot analizza il web. E la notizia, diciamocelo, cambia le carte in tavola. In un recente aggiornamento, è stato messo nero su bianco che Googlebot si ferma dopo aver scaricato i primi 2MB di una pagina web.

Non un byte di più.

Questo non è un dettaglio da poco, perché significa che tutto ciò che si trova oltre quella soglia, per Google, semplicemente non esiste. Non viene letto, non viene processato e, di conseguenza, non viene indicizzato.

Questo limite, che include anche le intestazioni della richiesta HTTP, costringe a ripensare a come strutturiamo le nostre pagine. Non si tratta di un rifiuto della pagina, ma di una scansione parziale: il crawler prende il suo pezzetto da 2MB e lo tratta come se fosse il file completo.

Ma pensi davvero che questa “trasparenza” sia un semplice atto di generosità da parte di Google? O è forse un modo per dettare regole ancora più stringenti, costringendo tutti ad allinearsi a un’efficienza che giova soprattutto alla sua immensa infrastruttura?

La questione resta aperta.

Googlebot è solo la punta dell’iceberg

Qui le cose si fanno ancora più interessanti. Si scopre che Googlebot non è un’entità solitaria che vaga per il web, ma solo uno dei tanti “clienti” che utilizzano una piattaforma di crawling centralizzata e condivisa. Come spiegato nero su bianco da Gary Illyes sul blog di Google Search, il nome “Googlebot” è rimasto per una sorta di abitudine storica, risalente a quando Google aveva un solo prodotto.

Oggi, decine di altri servizi, da Google Shopping ad AdSense, usano la stessa identica infrastruttura, ma con nomi e regole diverse. Quindi, quando vedi “Googlebot” nei log del tuo server, sai che si tratta specificamente della Ricerca Google. Gli altri “clienti” di questa piattaforma, invece, spesso operano con limiti ben più alti, fino a 15MB. Questa rivelazione ci fa capire che l’architettura di Google è molto più unificata e controllata di quanto si potesse pensare.

Una volta che il crawler ha raccolto il suo “bottino” di dati, però, il lavoro non è finito. Quel frammento di codice deve essere interpretato, ed è qui che entra in gioco un altro attore fondamentale, con le sue regole e i suoi limiti.

Il rendering: dove il codice prende (o non prende) vita

Dopo la scansione, il contenuto raccolto viene passato al Web Rendering Service (WRS) di Google, un sistema che si comporta in modo simile a un browser per eseguire JavaScript e CSS e capire come appare realmente la pagina.

Il WRS, tuttavia, ha delle particolarità non da poco: ignora completamente immagini e video e, soprattutto, può eseguire solo il codice che Googlebot è riuscito a scaricare entro il fatidico limite dei 2MB. Inoltre, opera in modalità “stateless”, ovvero cancella memoria locale e dati di sessione tra una richiesta e l’altra, una caratteristica che può creare non pochi grattacapi ai siti che dipendono pesantemente da JavaScript per funzionare.

La buona notizia, se così vogliamo chiamarla, è che ogni risorsa esterna, come un file CSS o JS, ha un suo contatore separato e un proprio limite di 2MB.

Questo, più che un consiglio, suona come un’indicazione chiara: le informazioni importanti, come i meta tag, i dati strutturati e il titolo, devono trovarsi il più in alto possibile nel codice .

Chi tardi arriva, semplicemente, non viene considerato.

Google conferma: Googlebot scansiona solo i primi 2MB di una pagina

Il crawler di Google si ferma a 2MB: un cambio di paradigma che impatta l’indicizzazione e apre scenari inediti sull’architettura del motore di ricerca.

Il sipario si alza: Google svela il limite di 2MB del suo crawler

Googlebot è solo la punta dell’iceberg

Il rendering: dove il codice prende (o non prende) vita

1 commento su “Google conferma: Googlebot scansiona solo i primi 2MB di una pagina”

Lascia un commento Annulla risposta

Mercato, richieste e concorrenti. Scopri le potenzialità del tuo Business su Google. Dati alla mano.

Analisi di fattibilità