Blogger et le fichier robots.txt

Le fichier robots.txt est un élément clé du référencement. Il indique aux moteurs de recherche quelles pages de votre blog doivent être explorées ou ignorées.
Depuis mars 2012, Blogger permet aux administrateurs de personnaliser ce fichier pour mieux contrôler l’indexation de leur contenu. Bien configuré, il peut optimiser le SEO ; mal configuré, il peut empêcher l’apparition de pages importantes dans Google.
Dans cet article, nous allons voir comment gérer efficacement le fichier robots.txt sur Blogger pour améliorer la visibilité de votre blog.
L'origine et l'évolution du fichier robots.txt
Le fichier robots.txt est apparu en 1994, bien avant que le référencement naturel (SEO) ne devienne un enjeu majeur du web. À cette époque, les moteurs de recherche étaient en pleine expansion, et un mécanisme pour gérer leur exploration devenait nécessaire.
La naissance du "Robots Exclusion Protocol"
L’idée était simple : créer un fichier texte permettant aux administrateurs de sites d’indiquer aux moteurs de recherche quelles parties d’un site devaient ou non être explorées. C’est ainsi qu’est né le REP, qui a rapidement été adopté par des moteurs comme AltaVista, Lycos et Excite, les ancêtres de Google.
Un standard non officiel mais largement adopté
Le protocole robots.txt, bien que largement adopté, n'a jamais été validé par un organisme officiel comme le W3C. Chaque moteur de recherche peut donc interpréter ses règles légèrement différemment. Malgré cela, il est devenu un élément incontournable dans la gestion de l’indexation des sites web.
Robots.txt aujourd'hui : un outil toujours indispensable
De nos jours, les moteurs de recherche modernes comme Google, Bing, Yahoo et Yandex respectent les directives du fichier robots.txt pour optimiser leur exploration des sites web. Un bon paramétrage permet d'optimiser l'exploration des pages pertinentes tout en évitant l'indexation de contenus superflus.
Loin d’être un vestige du passé, le fichier robots.txt reste un outil essentiel pour les administrateurs de sites et les experts SEO cherchant à optimiser la visibilité de leurs contenus sur le web.
Décryptage du fichier robots.txt : à quoi sert-il vraiment ?
Le fichier robots.txt constitue un pilier clef du protocole d'exclusion des robots (REP), utilisé pour contrôler le comportement des crawlers des moteurs de recherche sur un site web. Placé à la racine du domaine, il agit comme un mécanisme de filtrage indiquant aux bots quelles ressources doivent être explorées ou ignorées.
Fonctionnalités et applications
-
Régulation du crawling
Ce fichier permet d’exclure certaines sections du site jugées non pertinentes pour l’indexation, comme les espaces d’administration, les répertoires contenant du contenu dupliqué ou les pages de recherche interne.
-
Gestion du crawl budget
Chaque moteur de recherche alloue une capacité de crawl définie par site. Restreindre l’accès aux ressources inutiles améliore l’efficacité du processus et oriente les bots vers les pages essentielles.
-
Signalisation du sitemap XML
Une ligne spécifique peut être incluse pour indiquer l’emplacement du fichier sitemap.xml, facilitant ainsi la découverte et l’indexation des pages importantes par les moteurs de recherche.
Mécanisme de fonctionnement
Lorsqu’un bot, tel que Googlebot, accède à un site, il commence systématiquement par consulter le fichier robots.txt afin de déterminer les règles d’exploration applicables. Ce fichier suit une syntaxe précise avec des directives spécifiques.
User-agent: * Disallow: /admin/ Disallow: /search Allow: / Sitemap: https://example.com/sitemap.xml
Explication des directives :
User-agent: *
: S’applique à tous les robots d’indexation.Disallow: /admin/
etDisallow: /search
: Interdit l’exploration de ces répertoires.Allow: /
: Autorise l’exploration des autres sections du site.Sitemap
: Informe les moteurs de recherche de l’emplacement du fichier sitemap.xml.
Limites et malentendus
Contrairement aux idées reçues, un fichier robots.txt ne bloque pas l’indexation des pages, il empêche uniquement leur exploration. Une URL exclue peut toujours apparaître dans les résultats de recherche si elle est référencée ailleurs. Pour empêcher réellement l’indexation, l’utilisation de la balise meta robots avec l’attribut noindex
est indispensable.
Configurer et optimiser le fichier robots.txt sur Blogger
Tous les blogs hébergés sur Blogger possèdent un fichier robots.txt accessible à la racine du blog, à l'adresse suivante :
https://example.blogspot.com/robots.txt
Ce fichier est généré automatiquement par Blogger et contient par défaut des directives permettant de restreindre l'exploration des pages de recherche afin d'éviter l'indexation de contenus jugés peu pertinents par les moteurs de recherche.
Les différentes configurations du fichier robots.txt sur Blogger
Blogger génère automatiquement un fichier robots.txt en fonction des paramètres d'indexation du blog. Voici les deux configurations principales :
User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Disallow: / User-Agent: googlebot Disallow: /search Allow: /
Explication des règles par défaut :
Mediapartners-Google (Google AdSense) a un accès total, car il est essentiel pour l'affichage des publicités.
Tous les robots (
User-agent: *
) sont bloqués sur tout le blog (Disallow: /
), sauf Googlebot, qui peut accéder aux pages hors/search
.Le fichier sitemap.xml n'est pas inclus, car aucune exploration n'est souhaitée.
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://example.blogspot.com/sitemap.xml
Explication des règles par défaut :
Mediapartners-Google (Google AdSense) a un accès total, car il est essentiel pour l'affichage des publicités.
Tous les robots (
User-agent: *
) peuvent explorer le blog, sauf les pages de recherche (/search
).Le sitemap est inclus pour faciliter l'indexation des pages importantes.
Personnalisation du fichier robots.txt sur Blogger
Blogger offre une option permettant de modifier ce fichier directement depuis l'interface d'administration.
- UI
- Paramètres
- Robots d'exploration et indexation
Activez l'option Activer le fichier robots.txt personnalisé.
Ajoutez vos propres règles dans la zone de texte dédiée.
Conséquences des modifications :
-
Si vous laissez l'option désactivée (NON)
Blogger génère automatiquement un fichier conforme aux directives par défaut.
-
Si vous activez l'option (OUI) mais laissez le fichier vide
Vous indiquez aux moteurs de recherche qu'ils peuvent explorer et indexer toutes les pages du blog (ce qui est généralement déconseillé).
-
Si vous ajoutez des instructions spécifiques
Vous devez être certain des règles appliquées pour ne pas bloquer involontairement des pages importantes.
Les bots : alliés ou intrus du référencement ?
Les bots (ou crawlers) sont des programmes automatisés parcourant le web pour diverses raisons. Certains, comme Googlebot ou Bingbot, sont essentiels pour référencer les pages et améliorer leur visibilité sur les moteurs de recherche. D’autres, comme les bots d’archivage (ex : Wayback Machine), conservent une trace des sites dans le temps.
Cependant, tous les bots ne sont pas bienveillants. Certains aspirent du contenu sans permission pour entraîner des intelligences artificielles (GPTBot, PerplexityBot), d'autres surchargent les serveurs en multipliant les requêtes inutiles (AhrefsBot, SEMrushBot).
Dans cette section, nous avons listés les principaux bots et leur utilité. La liste que nous vous proposons est exhaustive.
Tableau des bots les plus courants
Bot | Moteur/Service | Rôle | User-agent |
---|---|---|---|
Googlebot | Google Search | Explore et indexe les pages. | Googlebot |
Googlebot-Image | Google Images | Explore les images. | Googlebot-Image |
Googlebot-News | Google Actualités | Indexe les articles de presse. | Googlebot-News |
Googlebot-Video | Google Vidéos | Indexe les vidéos. | Googlebot-Video |
Googlebot-Mobile | Google Mobile | Vérifie la compatibilité mobile. | Googlebot-Mobile |
Mediapartners-Google | Google AdSense | Analyse les pages pour les publicités AdSense. | Mediapartners-Google |
Bingbot | Microsoft Bing | Explore et indexe les pages pour Bing. | Bingbot |
MSNBot | Ancien bot de Bing | Ancien bot, remplacé par Bingbot. | MSNBot |
Bingbot-Image | Bing Images | Indexe les images pour Bing. | Bingbot-Image |
Slurp | Yahoo! Search | Ancien bot de Yahoo!. | Slurp |
DuckDuckBot | DuckDuckGo | Explore les pages pour l’index de DuckDuckGo. | DuckDuckBot |
YandexBot | Yandex (Russie) | Indexe les pages pour Yandex. | YandexBot |
YandexImages | Yandex Images | Explore les images pour Yandex. | YandexImages |
FacebookExternalHit | Vérifie les aperçus de lien (Open Graph). | FacebookExternalHit |
|
Twitterbot | Twitter/X | Récupère les métadonnées des liens partagés. | Twitterbot |
LinkedInBot | Récupère les aperçus des liens. | LinkedInBot |
|
Pinterestbot | Explore les images et contenus partagés sur Pinterest. | Pinterestbot |
|
Applebot | Apple | Utilisé pour Siri et Spotlight Search. | Applebot |
Tableau des bots d’archivage et de cache
Ces bots ne sont pas des moteurs de recherche classiques. Ils servent à archiver des pages web ou à mettre en cache du contenu.
Bot | Service | Rôle | User-agent |
---|---|---|---|
ia_archiver | Wayback Machine (Internet Archive) | Archive les pages web pour la consultation historique. | ia_archiver |
archive.org_bot | Internet Archive | Variante spécifique d’Internet Archive. | archive.org_bot |
Google Web Preview | Prend des captures d’écran pour les aperçus Google. | Google Web Preview |
|
Google Favicon | Récupère les favicons des sites web. | Google Favicon |
|
BingPreview | Bing | Prend des aperçus des pages web. | BingPreview |
Tableau des bots d’IA et de machine learning
Ces bots appartiennent aux entreprises qui développent des modèles d’intelligence artificielle, comme ChatGPT, Bard, Claude, Perplexity AI, et d’autres.
Bot | Service | Rôle | User-agent |
---|---|---|---|
ChatGPT-User | OpenAI | Utilisé par ChatGPT pour afficher des prévisualisations d’URLs. | ChatGPT-User |
GPTBot | OpenAI | Explore le web pour entraîner les modèles OpenAI (ChatGPT). | GPTBot |
CCBot | Common Crawl | Scrape les sites pour créer une base de données de texte utilisée par les modèles d’IA (y compris OpenAI et Google). | CCBot |
AnthropicAI | Anthropic | Explore les pages web pour entraîner Claude AI. | anthropic-ai |
ClaudeBot | Anthropic | Bot utilisé pour récupérer des données pour Claude. | ClaudeBot |
PerplexityBot | Perplexity AI | Explore les sites pour répondre aux questions des utilisateurs en temps réel. | PerplexityBot |
Google-Extended | Google (Bard & Gemini) | Explore les pages pour entraîner les IA Google (Gemini, Bard). | Google-Extended |
Amazonbot | Amazon | Utilisé par Amazon pour collecter des données sur les produits et les avis. | Amazonbot |
Applebot | Apple | Utilisé par Siri et Apple Search. Peut aussi servir pour l’entraînement d’une IA. | Applebot |
FacebookBot | Meta (Facebook) | Explore les sites pour les modèles d’IA de Meta. | FacebookBot |
PhindBot | Phind AI | Bot utilisé pour enrichir la base de connaissances du moteur de recherche Phind, optimisé pour les développeurs. | PhindBot |
CoHereBot | Cohere AI | Bot qui collecte du contenu pour entraîner les modèles de Cohere (LLM). | CoHereBot |
You.com Bot | You.com | Utilisé par YouChat, un moteur de recherche conversationnel basé sur l’IA. | YouBot |
Tableau des bots malveillants
Certains bots sont considérés comme nuisibles, car ils consomment des ressources serveur ou récupèrent du contenu sans permission.
Bot | Pourquoi ? | User-agent |
---|---|---|
AhrefsBot | Peut scraper des contenus sans consentement. | AhrefsBot |
SEMrushBot | Utilisé pour espionner les concurrents SEO. | SEMrushBot |
MJ12bot | Collecte les backlinks mais peut surcharger les serveurs. | MJ12bot |
DotBot | Analyse SEO mais peut scraper trop souvent. | DotBot |
Sogou Spider | Bot chinois qui ignore souvent robots.txt . |
Sogou Spider |
Baiduspider | Peut scraper du contenu pour Baidu. | Baiduspider |
Scrapy | Bot open-source pour récupérer du contenu massivement. | Scrapy |
HTTrack | Outil pour copier des sites web en local. | HTTrack |
Wget | Utilisé pour télécharger massivement du contenu. | Wget |
Comment bloquer un bot dans robots.txt ?
Si un bot effectue des requêtes indésirables sur votre blog, vous pouvez lui interdire l’accès en ajoutant une règle spécifique dans votre fichier robots.txt :
User-agent: BotName
Disallow: /
Si plusieurs bots doivent être bloqués, vous pouvez ajouter plusieurs règles :
User-agent: Bot1 Disallow: / User-agent: Bot2 Disallow: / User-agent: Bot3 Disallow: /
🚨 À noter
Certains bots ignorent robots.txt et peuvent toujours récupérer du contenu via des bases externes ou des proxys. Si votre blog est public, son contenu reste accessible.

Comment tester son fichier robots.txt ?
Une bonne configuration du fichier robots.txt est essentielle pour s'assurer que les pages importantes sont accessibles aux moteurs de recherche et que les zones sensibles restent protégées.
Utiliser le "Testeur du fichier robots.txt" sur Bing Webmaster Tools
Google a retiré son outil de test dans sa console, mais Bing propose encore un testeur de robots.txt.
Connectez-vous à Bing Webmaster Tools.
Ajoutez et vérifiez votre blog si ce n'est pas encore fait.
Allez dans "Outils & améliorations" > "Testeur du fichier Robots.txt".
Entrez une URL de votre blog et testez si elle est bloquée ou autorisée.
Pourquoi l'utiliser ?
Bing suit globalement les mêmes règles que Google pour robots.txt, donc ce testeur peut être utile même si votre principal moteur de recherche cible est Google.
Le fichier robots.txt de Blogger.com
Outre le fichier robots.txt que vous pouvez personnaliser sur votre blog, il existe un second fichier propre à la plateforme Blogger.com elle-même. Celui-ci est accessible à l’adresse suivante : https://www.blogger.com/robots.txt
Ce fichier contrôle les pages techniques hébergées directement sur le domaine blogger.com. Ces pages, bien que liées aux fonctionnalités du blog, ne font pas partie du contenu principal de votre site. Il s’agit notamment de :
Les formulaires de commentaires externes (sur une page séparée).
Les fenêtres d’envoi d’article par email.
Les pages de gestion des followers.
Les outils d’administration internes à Blogger.
Ces directives s’adressent aux robots des moteurs de recherche afin de restreindre l’exploration de ces pages annexes. Leur indexation est inutile et pourrait altérer le référencement du blog en créant du contenu dupliqué ou en exposant des pages techniques non pertinentes pour les visiteurs.
Même si vous optimisez parfaitement le fichier robots.txt de votre blog et structurez soigneusement votre maillage interne, ces pages générées sur le domaine blogger.com restent indépendantes de votre propre fichier robots.txt. Toutefois, grâce à cette configuration intégrée côté plateforme, elles sont automatiquement bloquées à l’indexation, ce qui assure la propreté des résultats dans les SERP.
Enfin, ce comportement est identique quelle que soit la plateforme (CMS) utilisée. Chaque CMS ou service en ligne peut gérer un fichier robots.txt distinct pour ses propres ressources administratives.
Ressources officielles et complémentaires
-
Google Developers
-
Bing Webmaster Tools
-
Centre d'aide Blogger