Blogger et le fichier robots.txt

Le fichier robots.txt est un élément clé du référencement. Il indique aux moteurs de recherche quelles pages de votre blog doivent être explorées ou ignorées.

Depuis mars 2012, Blogger permet aux administrateurs de personnaliser ce fichier pour mieux contrôler l’indexation de leur contenu. Bien configuré, il peut optimiser le SEO ; mal configuré, il peut empêcher l’apparition de pages importantes dans Google.

Dans cet article, nous allons voir comment gérer efficacement le fichier robots.txt sur Blogger pour améliorer la visibilité de votre blog.

L'origine et l'évolution du fichier robots.txt

Le fichier robots.txt est apparu en 1994, bien avant que le référencement naturel (SEO) ne devienne un enjeu majeur du web. À cette époque, les moteurs de recherche étaient en pleine expansion, et un mécanisme pour gérer leur exploration devenait nécessaire.

La naissance du "Robots Exclusion Protocol"

L’idée était simple : créer un fichier texte permettant aux administrateurs de sites d’indiquer aux moteurs de recherche quelles parties d’un site devaient ou non être explorées. C’est ainsi qu’est né le REP, qui a rapidement été adopté par des moteurs comme AltaVista, Lycos et Excite, les ancêtres de Google.

Un standard non officiel mais largement adopté

Le protocole robots.txt, bien que largement adopté, n'a jamais été validé par un organisme officiel comme le W3C. Chaque moteur de recherche peut donc interpréter ses règles légèrement différemment. Malgré cela, il est devenu un élément incontournable dans la gestion de l’indexation des sites web.

Robots.txt aujourd'hui : un outil toujours indispensable

De nos jours, les moteurs de recherche modernes comme Google, Bing, Yahoo et Yandex respectent les directives du fichier robots.txt pour optimiser leur exploration des sites web. Un bon paramétrage permet d'optimiser l'exploration des pages pertinentes tout en évitant l'indexation de contenus superflus.

Loin d’être un vestige du passé, le fichier robots.txt reste un outil essentiel pour les administrateurs de sites et les experts SEO cherchant à optimiser la visibilité de leurs contenus sur le web.

Décryptage du fichier robots.txt : à quoi sert-il vraiment ?

Le fichier robots.txt constitue un pilier clef du protocole d'exclusion des robots (REP), utilisé pour contrôler le comportement des crawlers des moteurs de recherche sur un site web. Placé à la racine du domaine, il agit comme un mécanisme de filtrage indiquant aux bots quelles ressources doivent être explorées ou ignorées.

Fonctionnalités et applications

Régulation du crawling

Ce fichier permet d’exclure certaines sections du site jugées non pertinentes pour l’indexation, comme les espaces d’administration, les répertoires contenant du contenu dupliqué ou les pages de recherche interne.
Gestion du crawl budget

Chaque moteur de recherche alloue une capacité de crawl définie par site. Restreindre l’accès aux ressources inutiles améliore l’efficacité du processus et oriente les bots vers les pages essentielles.
Signalisation du sitemap XML

Une ligne spécifique peut être incluse pour indiquer l’emplacement du fichier sitemap.xml, facilitant ainsi la découverte et l’indexation des pages importantes par les moteurs de recherche.

Mécanisme de fonctionnement

Lorsqu’un bot, tel que Googlebot, accède à un site, il commence systématiquement par consulter le fichier robots.txt afin de déterminer les règles d’exploration applicables. Ce fichier suit une syntaxe précise avec des directives spécifiques.

Exemple de fichier robots.txt

User-agent: *
Disallow: /admin/
Disallow: /search
Allow: /
Sitemap: https://example.com/sitemap.xml

Explication des directives :

User-agent: * : S’applique à tous les robots d’indexation.
Disallow: /admin/ et Disallow: /search : Interdit l’exploration de ces répertoires.
Allow: / : Autorise l’exploration des autres sections du site.
Sitemap : Informe les moteurs de recherche de l’emplacement du fichier sitemap.xml.

Limites et malentendus

Contrairement aux idées reçues, un fichier robots.txt ne bloque pas l’indexation des pages, il empêche uniquement leur exploration. Une URL exclue peut toujours apparaître dans les résultats de recherche si elle est référencée ailleurs. Pour empêcher réellement l’indexation, l’utilisation de la balise meta robots avec l’attribut noindex est indispensable.

Configurer et optimiser le fichier robots.txt sur Blogger

Tous les blogs hébergés sur Blogger possèdent un fichier robots.txt accessible à la racine du blog, à l'adresse suivante :

https://example.blogspot.com/robots.txt

Ce fichier est généré automatiquement par Blogger et contient par défaut des directives permettant de restreindre l'exploration des pages de recherche afin d'éviter l'indexation de contenus jugés peu pertinents par les moteurs de recherche.

Les différentes configurations du fichier robots.txt sur Blogger

Blogger génère automatiquement un fichier robots.txt en fonction des paramètres d'indexation du blog. Voici les deux configurations principales :

Configuration 1
Configuration 2

Fichier généré lorsque l'exploration du blog est refusée aux robots

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Disallow: /share-widget
Disallow: /

User-Agent: googlebot
Disallow: /search
Allow: /

Explication des règles par défaut :

Mediapartners-Google (Google AdSense) a un accès total, car il est essentiel pour l'affichage des publicités.
Tous les robots (User-agent: *) sont bloqués sur tout le blog (Disallow: /), sauf Googlebot, qui peut accéder aux pages hors /search.
Le fichier sitemap.xml n'est pas inclus, car aucune exploration n'est souhaitée.

Fichier généré lorsque l'exploration du blog est autorisée aux robots

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Disallow: /share-widget
Allow: /

Sitemap: https://example.blogspot.com/sitemap.xml

Explication des règles par défaut :

Mediapartners-Google (Google AdSense) a un accès total, car il est essentiel pour l'affichage des publicités.
Tous les robots (User-agent: *) peuvent explorer le blog, sauf les pages de recherche (/search).
Le sitemap est inclus pour faciliter l'indexation des pages importantes.

Personnalisation du fichier robots.txt sur Blogger

Blogger offre une option permettant de modifier ce fichier directement depuis l'interface d'administration.

UI
Paramètres
Robots d'exploration et indexation

Activer le fichier robots.txt dans l'interface Blogger

Activez l'option Activer le fichier robots.txt personnalisé.
Ajoutez vos propres règles dans la zone de texte dédiée.

Conséquences des modifications :

Si vous laissez l'option désactivée (NON)

Blogger génère automatiquement un fichier conforme aux directives par défaut.
Si vous activez l'option (OUI) mais laissez le fichier vide

Vous indiquez aux moteurs de recherche qu'ils peuvent explorer et indexer toutes les pages du blog (ce qui est généralement déconseillé).
Si vous ajoutez des instructions spécifiques

Vous devez être certain des règles appliquées pour ne pas bloquer involontairement des pages importantes.

Les bots : alliés ou intrus du référencement ?

Les bots (ou crawlers) sont des programmes automatisés parcourant le web pour diverses raisons. Certains, comme Googlebot ou Bingbot, sont essentiels pour référencer les pages et améliorer leur visibilité sur les moteurs de recherche. D’autres, comme les bots d’archivage (ex : Wayback Machine), conservent une trace des sites dans le temps.

Cependant, tous les bots ne sont pas bienveillants. Certains aspirent du contenu sans permission pour entraîner des intelligences artificielles (GPTBot, PerplexityBot), d'autres surchargent les serveurs en multipliant les requêtes inutiles (AhrefsBot, SEMrushBot).

Dans cette section, nous avons listés les principaux bots et leur utilité. La liste que nous vous proposons est exhaustive.

Bots courants
Bots de cache
Bots d’IA
Bots malveillants

Tableau des bots les plus courants

Bot	Moteur/Service	Rôle	User-agent
Googlebot	Google Search	Explore et indexe les pages.	`Googlebot`
Googlebot-Image	Google Images	Explore les images.	`Googlebot-Image`
Googlebot-News	Google Actualités	Indexe les articles de presse.	`Googlebot-News`
Googlebot-Video	Google Vidéos	Indexe les vidéos.	`Googlebot-Video`
Googlebot-Mobile	Google Mobile	Vérifie la compatibilité mobile.	`Googlebot-Mobile`
Mediapartners-Google	Google AdSense	Analyse les pages pour les publicités AdSense.	`Mediapartners-Google`
Bingbot	Microsoft Bing	Explore et indexe les pages pour Bing.	`Bingbot`
MSNBot	Ancien bot de Bing	Ancien bot, remplacé par Bingbot.	`MSNBot`
Bingbot-Image	Bing Images	Indexe les images pour Bing.	`Bingbot-Image`
Slurp	Yahoo! Search	Ancien bot de Yahoo!.	`Slurp`
DuckDuckBot	DuckDuckGo	Explore les pages pour l’index de DuckDuckGo.	`DuckDuckBot`
YandexBot	Yandex (Russie)	Indexe les pages pour Yandex.	`YandexBot`
YandexImages	Yandex Images	Explore les images pour Yandex.	`YandexImages`
FacebookExternalHit	Facebook	Vérifie les aperçus de lien (Open Graph).	`FacebookExternalHit`
Twitterbot	Twitter/X	Récupère les métadonnées des liens partagés.	`Twitterbot`
LinkedInBot	LinkedIn	Récupère les aperçus des liens.	`LinkedInBot`
Pinterestbot	Pinterest	Explore les images et contenus partagés sur Pinterest.	`Pinterestbot`
Applebot	Apple	Utilisé pour Siri et Spotlight Search.	`Applebot`

Tableau des bots d’archivage et de cache

Ces bots ne sont pas des moteurs de recherche classiques. Ils servent à archiver des pages web ou à mettre en cache du contenu.

Bot	Service	Rôle	User-agent
ia_archiver	Wayback Machine (Internet Archive)	Archive les pages web pour la consultation historique.	`ia_archiver`
archive.org_bot	Internet Archive	Variante spécifique d’Internet Archive.	`archive.org_bot`
Google Web Preview	Google	Prend des captures d’écran pour les aperçus Google.	`Google Web Preview`
Google Favicon	Google	Récupère les favicons des sites web.	`Google Favicon`
BingPreview	Bing	Prend des aperçus des pages web.	`BingPreview`

Tableau des bots d’IA et de machine learning

Ces bots appartiennent aux entreprises qui développent des modèles d’intelligence artificielle, comme ChatGPT, Bard, Claude, Perplexity AI, et d’autres.

Bot	Service	Rôle	User-agent
ChatGPT-User	OpenAI	Utilisé par ChatGPT pour afficher des prévisualisations d’URLs.	`ChatGPT-User`
GPTBot	OpenAI	Explore le web pour entraîner les modèles OpenAI (ChatGPT).	`GPTBot`
CCBot	Common Crawl	Scrape les sites pour créer une base de données de texte utilisée par les modèles d’IA (y compris OpenAI et Google).	`CCBot`
AnthropicAI	Anthropic	Explore les pages web pour entraîner Claude AI.	`anthropic-ai`
ClaudeBot	Anthropic	Bot utilisé pour récupérer des données pour Claude.	`ClaudeBot`
PerplexityBot	Perplexity AI	Explore les sites pour répondre aux questions des utilisateurs en temps réel.	`PerplexityBot`
Google-Extended	Google (Bard & Gemini)	Explore les pages pour entraîner les IA Google (Gemini, Bard).	`Google-Extended`
Amazonbot	Amazon	Utilisé par Amazon pour collecter des données sur les produits et les avis.	`Amazonbot`
Applebot	Apple	Utilisé par Siri et Apple Search. Peut aussi servir pour l’entraînement d’une IA.	`Applebot`
FacebookBot	Meta (Facebook)	Explore les sites pour les modèles d’IA de Meta.	`FacebookBot`
PhindBot	Phind AI	Bot utilisé pour enrichir la base de connaissances du moteur de recherche Phind, optimisé pour les développeurs.	`PhindBot`
CoHereBot	Cohere AI	Bot qui collecte du contenu pour entraîner les modèles de Cohere (LLM).	`CoHereBot`
You.com Bot	You.com	Utilisé par YouChat, un moteur de recherche conversationnel basé sur l’IA.	`YouBot`

Tableau des bots malveillants

Certains bots sont considérés comme nuisibles, car ils consomment des ressources serveur ou récupèrent du contenu sans permission.

Bot	Pourquoi ?	User-agent
AhrefsBot	Peut scraper des contenus sans consentement.	`AhrefsBot`
SEMrushBot	Utilisé pour espionner les concurrents SEO.	`SEMrushBot`
MJ12bot	Collecte les backlinks mais peut surcharger les serveurs.	`MJ12bot`
DotBot	Analyse SEO mais peut scraper trop souvent.	`DotBot`
Sogou Spider	Bot chinois qui ignore souvent `robots.txt`.	`Sogou Spider`
Baiduspider	Peut scraper du contenu pour Baidu.	`Baiduspider`
Scrapy	Bot open-source pour récupérer du contenu massivement.	`Scrapy`
HTTrack	Outil pour copier des sites web en local.	`HTTrack`
Wget	Utilisé pour télécharger massivement du contenu.	`Wget`

Comment bloquer un bot dans robots.txt ?

Si un bot effectue des requêtes indésirables sur votre blog, vous pouvez lui interdire l’accès en ajoutant une règle spécifique dans votre fichier robots.txt :

User-agent: BotName
Disallow: /

Si plusieurs bots doivent être bloqués, vous pouvez ajouter plusieurs règles :

User-agent: Bot1
Disallow: /

User-agent: Bot2
Disallow: /

User-agent: Bot3
Disallow: /

🚨 À noter

Certains bots ignorent robots.txt et peuvent toujours récupérer du contenu via des bases externes ou des proxys. Si votre blog est public, son contenu reste accessible.

Comment tester son fichier robots.txt ?

Une bonne configuration du fichier robots.txt est essentielle pour s'assurer que les pages importantes sont accessibles aux moteurs de recherche et que les zones sensibles restent protégées.

Utiliser le "Testeur du fichier robots.txt" sur Bing Webmaster Tools

Google a retiré son outil de test dans sa console, mais Bing propose encore un testeur de robots.txt.

Connectez-vous à Bing Webmaster Tools.
Ajoutez et vérifiez votre blog si ce n'est pas encore fait.
Allez dans "Outils & améliorations" > "Testeur du fichier Robots.txt".
Entrez une URL de votre blog et testez si elle est bloquée ou autorisée.

Pourquoi l'utiliser ?

Bing suit globalement les mêmes règles que Google pour robots.txt, donc ce testeur peut être utile même si votre principal moteur de recherche cible est Google.

Tester le fichier robots.txt dans Bing Webmaster Tools

Le fichier robots.txt de Blogger.com

Outre le fichier robots.txt que vous pouvez personnaliser sur votre blog, il existe un second fichier propre à la plateforme Blogger.com elle-même. Celui-ci est accessible à l’adresse suivante : https://www.blogger.com/robots.txt

Ce fichier contrôle les pages techniques hébergées directement sur le domaine blogger.com. Ces pages, bien que liées aux fonctionnalités du blog, ne font pas partie du contenu principal de votre site. Il s’agit notamment de :

Les formulaires de commentaires externes (sur une page séparée).
Les fenêtres d’envoi d’article par email.
Les pages de gestion des followers.
Les outils d’administration internes à Blogger.

Ces directives s’adressent aux robots des moteurs de recherche afin de restreindre l’exploration de ces pages annexes. Leur indexation est inutile et pourrait altérer le référencement du blog en créant du contenu dupliqué ou en exposant des pages techniques non pertinentes pour les visiteurs.

Même si vous optimisez parfaitement le fichier robots.txt de votre blog et structurez soigneusement votre maillage interne, ces pages générées sur le domaine blogger.com restent indépendantes de votre propre fichier robots.txt. Toutefois, grâce à cette configuration intégrée côté plateforme, elles sont automatiquement bloquées à l’indexation, ce qui assure la propreté des résultats dans les SERP.

Enfin, ce comportement est identique quelle que soit la plateforme (CMS) utilisée. Chaque CMS ou service en ligne peut gérer un fichier robots.txt distinct pour ses propres ressources administratives.

Ressources officielles et complémentaires

Google Developers

Présentation du fichier robots.txt
Bing Webmaster Tools

Comment créer un fichier robots.txt
Centre d'aide Blogger

Robots d'exploration et indexation

Quiz récapitulatif

Chargement du quiz…