In ambito ottimizzazioni SEO degli aspetti tecnici di un sito web, il giusto utilizzo del file robots.txt può risultare importante, soprattutto quando si vuole risparmiare crawl budget (tempo che il crawler dedica alla scansione di un sito), valorizzando le sezioni più rilevanti.
Vediamo dunque cos’è il robots.txt, alcuni accenni sulla sintassi, come creare il file, come servirsene in modo corretto e come verificare l’esattezza delle direttive inserite.
Il robots.txt è un file testuale frutto di uno standard (il protocollo di esclusione robots) lanciato nell’ormai lontano 1994. Attraverso il file robots.txt, i webmaster di un sito web possono indicare ai vari crawler (dei motori di ricerca, ma non solo) quali parti del sito stesso possono scansionare e quali invece no.
Il robots.txt è espressione di un protocollo che viene definito consultivo. Che significa? I bot non sono tenuti a seguire le direttive contenute nel file.
Mentre i crawler noti e affidabili (come quelli di Google o di Bing) recuperano il file e ne rispettano le direttive, altri potrebbero non essere così rispettosi. Ad esempio, è molto improbabile che i bot creati per fini “dannosi”, si fermino di fronte a un blocco contenuto nel robots.txt.
Lato SEO, il robots.txt è un elemento molto utile per ottimizzare i percorsi di scansione, a patto che lo si usi con cognizione di causa.
Prima di vedere come creare e organizzare il file robots.txt, facciamo subito un esempio di utilizzo “virtuoso” dal punto di vista SEO.
Siamo i webmaster di un portale di notizie e approfondimenti (che chiameremo esempio.it). All’interno del sito abbiamo un’ampia sezione dove pubblichiamo comunicati stampa.
Questi contenuti sono scarni o duplicati, dunque non sono strategici lato SEO. Vogliamo evitare che i bot dei motori di ricerca vadano a “perdere tempo” in questa sezione, invece di focalizzarsi sulle altre parti del portale.
Vogliamo dunque ottimizzare il crawl budget del nostro sito, escludendo dalla scansione le sezioni superflue (quella dei comunicati stampa, nell’esempio in questione).
Ecco che ci viene in aiuto il file robots.txt. Supponiamo che i comunicati “inutili” si trovino tutti pubblicati sotto il percorso: esempio.it/comunicati/. Avremo quindi:
La seguente direttiva all’interno del robots.txt blocca i bot a monte (tutti quanti), negando loro l’accesso all’intero percorso che contiene i comunicati:
User-agent: *
Disallow: /comunicati/
Approfondiamo adesso sintassi e direttive, focalizzandoci in particolare su quelle supportate da Google. Di seguito tutti i vocaboli che devi conoscere per costruire al meglio le istruzioni contenute nel file robots.txt che andrai a creare:
Chiariamo alcuni aspetti importanti sulle direttive che andiamo a inserire nel robots.txt.
Si tratta di un semplice file di testo, quindi va benissimo un editor come il classico Blocco Note di Windows. Massima attenzione invece se si va a utilizzare un elaboratore di testi.
Questi ultimi potrebbero aggiungere la propria formattazione, invalidando le regole inserite nel file robots.txt (che, come abbiamo visto sopra, deve essere codificato UTF-8).
Fatta chiarezza su direttive e regole base del robots.txt, vediamo ora alcune applicazioni concrete del file con relativi esempi.
Con la seguente regola si blocca l’accesso a tutto il sito (ed è rivolta a tutti i bot).
User-agent: *
Disallow: /
L’esempio che abbiamo già visto relativo ai comunicati stampa.
User-agent: *
Disallow: /comunicati/
Supponiamo invece che vogliamo bloccare l’accesso a tutto il percorso, tranne a una determinata pagina. Ecco la direttiva:
User-agent: *
Disallow: /comunicati/
Allow: /comunicati/comunicato-numero-quattro.html
Con la seguente impostazione può accedere solo Googlebot (mentre il sito web è “off-limits” per tutti gli altri).
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
Con la regola seguente viene bloccata la scansione di tutti i file PDF.
User-agent: *
Disallow: /*.pdf$
User-agent: *
Disallow: /*?
Google dispone di diversi crawler specifici (vedi la panoramica completa con gli identificativi). Con la seguente direttiva si blocca la scansione di tutte le immagini e la conseguente indicizzazione (Google deve effettuare il crawling di immagini e video per poterle indicizzare).
User-agent: Googlebot-Image
Disallow: /
Per testare il file robots.txt possiamo seguire due strade:
Alcune note importanti sullo strumento di Google:
Per approfondire, vedi anche: i migliori tool SEO.
In tema di best practice sul robots.txt, la prima domanda che ci si dovrebbe porre è: mi serve ottimizzarlo? Bloccare l’accesso a determinati percorsi deve avere un senso, rispetto anche a quanto visto, altrimenti può essere nocivo oppure sterile.
Se, ad esempio, abbiamo un sito web che conta un centinaio di pagine in tutto, pensare di “risparmiare crawl budget” può essere una preoccupazione eccessiva. Anche gli approcci di sovra-ottimizzazione sono sconsigliati, si rischia tra le altre cose di andare a bloccare qualcosa che invece deve essere lasciato libero.
Detto ciò, vediamo alcuni scopi virtuosi per i quali servirsi del file robots.txt:
Su siti web di grosse dimensioni come molti ecommerce o siti di news, le ottimizzazioni nel file robots.txt possono giovare molto, a patto siano studiate in modo consono e strategico.
Vediamo invece adesso alcuni errori tipici di presupposti riguardanti il robots.txt:
Per approfondire su questo e aspetti collegati, vedi anche: come fare una SEO audit.
Gli aspetti tecnici di ottimizzazione SEO sono estremamente importanti, ma possono risultare anche complessi. Se la sintassi del file robots.txt in sé non è complicatissima, l’uso strategico che se ne fa va invece ragionato con attenzione, altrimenti si rischia di commettere errori anche particolarmente impattanti.