Blogger et le fichier robots.txt

Blogger et le fichier robots.txt

Le fichier robots.txt est un élément clé du référencement. Il indique aux moteurs de recherche quelles pages de votre blog doivent être explorées ou ignorées.

Depuis mars 2012, Blogger permet aux administrateurs de personnaliser ce fichier pour mieux contrôler l’indexation de leur contenu. Bien configuré, il peut optimiser le SEO ; mal configuré, il peut empêcher l’apparition de pages importantes dans Google.

Dans cet article, nous allons voir comment gérer efficacement le fichier robots.txt sur Blogger pour améliorer la visibilité de votre blog.

L'origine et l'évolution du fichier robots.txt

Le fichier robots.txt est apparu en 1994, bien avant que le référencement naturel (SEO) ne devienne un enjeu majeur du web. À cette époque, les moteurs de recherche étaient en pleine expansion, et un mécanisme pour gérer leur exploration devenait nécessaire.

La naissance du "Robots Exclusion Protocol"

L’idée était simple : créer un fichier texte permettant aux administrateurs de sites d’indiquer aux moteurs de recherche quelles parties d’un site devaient ou non être explorées. C’est ainsi qu’est né le REP, qui a rapidement été adopté par des moteurs comme AltaVista, Lycos et Excite, les ancêtres de Google.

Un standard non officiel mais largement adopté

Le protocole robots.txt, bien que largement adopté, n'a jamais été validé par un organisme officiel comme le W3C. Chaque moteur de recherche peut donc interpréter ses règles légèrement différemment. Malgré cela, il est devenu un élément incontournable dans la gestion de l’indexation des sites web.

Robots.txt aujourd'hui : un outil toujours indispensable

De nos jours, les moteurs de recherche modernes comme Google, Bing, Yahoo et Yandex respectent les directives du fichier robots.txt pour optimiser leur exploration des sites web. Un bon paramétrage permet d'optimiser l'exploration des pages pertinentes tout en évitant l'indexation de contenus superflus.

Loin d’être un vestige du passé, le fichier robots.txt reste un outil essentiel pour les administrateurs de sites et les experts SEO cherchant à optimiser la visibilité de leurs contenus sur le web.

Décryptage du fichier robots.txt : à quoi sert-il vraiment ?

Le fichier robots.txt constitue un pilier clef du protocole d'exclusion des robots (REP), utilisé pour contrôler le comportement des crawlers des moteurs de recherche sur un site web. Placé à la racine du domaine, il agit comme un mécanisme de filtrage indiquant aux bots quelles ressources doivent être explorées ou ignorées.

Fonctionnalités et applications

  • Régulation du crawling

    Ce fichier permet d’exclure certaines sections du site jugées non pertinentes pour l’indexation, comme les espaces d’administration, les répertoires contenant du contenu dupliqué ou les pages de recherche interne.

  • Gestion du crawl budget

    Chaque moteur de recherche alloue une capacité de crawl définie par site. Restreindre l’accès aux ressources inutiles améliore l’efficacité du processus et oriente les bots vers les pages essentielles.

  • Signalisation du sitemap XML

    Une ligne spécifique peut être incluse pour indiquer l’emplacement du fichier sitemap.xml, facilitant ainsi la découverte et l’indexation des pages importantes par les moteurs de recherche.

Mécanisme de fonctionnement

Lorsqu’un bot, tel que Googlebot, accède à un site, il commence systématiquement par consulter le fichier robots.txt afin de déterminer les règles d’exploration applicables. Ce fichier suit une syntaxe précise avec des directives spécifiques.

Exemple de fichier robots.txt
User-agent: *
Disallow: /admin/
Disallow: /search
Allow: /
Sitemap: https://example.com/sitemap.xml

Explication des directives :

  • User-agent: * : S’applique à tous les robots d’indexation.

  • Disallow: /admin/ et Disallow: /search : Interdit l’exploration de ces répertoires.

  • Allow: / : Autorise l’exploration des autres sections du site.

  • Sitemap : Informe les moteurs de recherche de l’emplacement du fichier sitemap.xml.

Limites et malentendus

Contrairement aux idées reçues, un fichier robots.txt ne bloque pas l’indexation des pages, il empêche uniquement leur exploration. Une URL exclue peut toujours apparaître dans les résultats de recherche si elle est référencée ailleurs. Pour empêcher réellement l’indexation, l’utilisation de la balise meta robots avec l’attribut noindex est indispensable.

Configurer et optimiser le fichier robots.txt sur Blogger

Tous les blogs hébergés sur Blogger possèdent un fichier robots.txt accessible à la racine du blog, à l'adresse suivante :

https://example.blogspot.com/robots.txt

Ce fichier est généré automatiquement par Blogger et contient par défaut des directives permettant de restreindre l'exploration des pages de recherche afin d'éviter l'indexation de contenus jugés peu pertinents par les moteurs de recherche.

Les différentes configurations du fichier robots.txt sur Blogger

Blogger génère automatiquement un fichier robots.txt en fonction des paramètres d'indexation du blog. Voici les deux configurations principales :

Fichier généré lorsque l'exploration du blog est refusée aux robots
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Disallow: /

User-Agent: googlebot
Disallow: /search
Allow: /

Explication des règles par défaut :

  • Mediapartners-Google (Google AdSense) a un accès total, car il est essentiel pour l'affichage des publicités.

  • Tous les robots (User-agent: *) sont bloqués sur tout le blog (Disallow: /), sauf Googlebot, qui peut accéder aux pages hors /search.

  • Le fichier sitemap.xml n'est pas inclus, car aucune exploration n'est souhaitée.

Fichier généré lorsque l'exploration du blog est autorisée aux robots
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: https://example.blogspot.com/sitemap.xml

Explication des règles par défaut :

  • Mediapartners-Google (Google AdSense) a un accès total, car il est essentiel pour l'affichage des publicités.

  • Tous les robots (User-agent: *) peuvent explorer le blog, sauf les pages de recherche (/search).

  • Le sitemap est inclus pour faciliter l'indexation des pages importantes.

Personnalisation du fichier robots.txt sur Blogger

Blogger offre une option permettant de modifier ce fichier directement depuis l'interface d'administration.

  • UI
  • Paramètres
  • Robots d'exploration et indexation
Activer le fichier robots.txt dans l'interface Blogger
  1. Activez l'option Activer le fichier robots.txt personnalisé.

  2. Ajoutez vos propres règles dans la zone de texte dédiée.

Conséquences des modifications :

  • Si vous laissez l'option désactivée (NON)

    Blogger génère automatiquement un fichier conforme aux directives par défaut.

  • Si vous activez l'option (OUI) mais laissez le fichier vide

    Vous indiquez aux moteurs de recherche qu'ils peuvent explorer et indexer toutes les pages du blog (ce qui est généralement déconseillé).

  • Si vous ajoutez des instructions spécifiques

    Vous devez être certain des règles appliquées pour ne pas bloquer involontairement des pages importantes.

Les bots : alliés ou intrus du référencement ?

Les bots (ou crawlers) sont des programmes automatisés parcourant le web pour diverses raisons. Certains, comme Googlebot ou Bingbot, sont essentiels pour référencer les pages et améliorer leur visibilité sur les moteurs de recherche. D’autres, comme les bots d’archivage (ex : Wayback Machine), conservent une trace des sites dans le temps.

Cependant, tous les bots ne sont pas bienveillants. Certains aspirent du contenu sans permission pour entraîner des intelligences artificielles (GPTBot, PerplexityBot), d'autres surchargent les serveurs en multipliant les requêtes inutiles (AhrefsBot, SEMrushBot).

Dans cette section, nous avons listés les principaux bots et leur utilité. La liste que nous vous proposons est exhaustive.

Tableau des bots les plus courants

Bot Moteur/Service Rôle User-agent
Googlebot Google Search Explore et indexe les pages. Googlebot
Googlebot-Image Google Images Explore les images. Googlebot-Image
Googlebot-News Google Actualités Indexe les articles de presse. Googlebot-News
Googlebot-Video Google Vidéos Indexe les vidéos. Googlebot-Video
Googlebot-Mobile Google Mobile Vérifie la compatibilité mobile. Googlebot-Mobile
Mediapartners-Google Google AdSense Analyse les pages pour les publicités AdSense. Mediapartners-Google
Bingbot Microsoft Bing Explore et indexe les pages pour Bing. Bingbot
MSNBot Ancien bot de Bing Ancien bot, remplacé par Bingbot. MSNBot
Bingbot-Image Bing Images Indexe les images pour Bing. Bingbot-Image
Slurp Yahoo! Search Ancien bot de Yahoo!. Slurp
DuckDuckBot DuckDuckGo Explore les pages pour l’index de DuckDuckGo. DuckDuckBot
YandexBot Yandex (Russie) Indexe les pages pour Yandex. YandexBot
YandexImages Yandex Images Explore les images pour Yandex. YandexImages
FacebookExternalHit Facebook Vérifie les aperçus de lien (Open Graph). FacebookExternalHit
Twitterbot Twitter/X Récupère les métadonnées des liens partagés. Twitterbot
LinkedInBot LinkedIn Récupère les aperçus des liens. LinkedInBot
Pinterestbot Pinterest Explore les images et contenus partagés sur Pinterest. Pinterestbot
Applebot Apple Utilisé pour Siri et Spotlight Search. Applebot

Tableau des bots d’archivage et de cache

Ces bots ne sont pas des moteurs de recherche classiques. Ils servent à archiver des pages web ou à mettre en cache du contenu.

Bot Service Rôle User-agent
ia_archiver Wayback Machine (Internet Archive) Archive les pages web pour la consultation historique. ia_archiver
archive.org_bot Internet Archive Variante spécifique d’Internet Archive. archive.org_bot
Google Web Preview Google Prend des captures d’écran pour les aperçus Google. Google Web Preview
Google Favicon Google Récupère les favicons des sites web. Google Favicon
BingPreview Bing Prend des aperçus des pages web. BingPreview

Tableau des bots d’IA et de machine learning

Ces bots appartiennent aux entreprises qui développent des modèles d’intelligence artificielle, comme ChatGPT, Bard, Claude, Perplexity AI, et d’autres.

Bot Service Rôle User-agent
ChatGPT-User OpenAI Utilisé par ChatGPT pour afficher des prévisualisations d’URLs. ChatGPT-User
GPTBot OpenAI Explore le web pour entraîner les modèles OpenAI (ChatGPT). GPTBot
CCBot Common Crawl Scrape les sites pour créer une base de données de texte utilisée par les modèles d’IA (y compris OpenAI et Google). CCBot
AnthropicAI Anthropic Explore les pages web pour entraîner Claude AI. anthropic-ai
ClaudeBot Anthropic Bot utilisé pour récupérer des données pour Claude. ClaudeBot
PerplexityBot Perplexity AI Explore les sites pour répondre aux questions des utilisateurs en temps réel. PerplexityBot
Google-Extended Google (Bard & Gemini) Explore les pages pour entraîner les IA Google (Gemini, Bard). Google-Extended
Amazonbot Amazon Utilisé par Amazon pour collecter des données sur les produits et les avis. Amazonbot
Applebot Apple Utilisé par Siri et Apple Search. Peut aussi servir pour l’entraînement d’une IA. Applebot
FacebookBot Meta (Facebook) Explore les sites pour les modèles d’IA de Meta. FacebookBot
PhindBot Phind AI Bot utilisé pour enrichir la base de connaissances du moteur de recherche Phind, optimisé pour les développeurs. PhindBot
CoHereBot Cohere AI Bot qui collecte du contenu pour entraîner les modèles de Cohere (LLM). CoHereBot
You.com Bot You.com Utilisé par YouChat, un moteur de recherche conversationnel basé sur l’IA. YouBot

Tableau des bots malveillants

Certains bots sont considérés comme nuisibles, car ils consomment des ressources serveur ou récupèrent du contenu sans permission.

Bot Pourquoi ? User-agent
AhrefsBot Peut scraper des contenus sans consentement. AhrefsBot
SEMrushBot Utilisé pour espionner les concurrents SEO. SEMrushBot
MJ12bot Collecte les backlinks mais peut surcharger les serveurs. MJ12bot
DotBot Analyse SEO mais peut scraper trop souvent. DotBot
Sogou Spider Bot chinois qui ignore souvent robots.txt. Sogou Spider
Baiduspider Peut scraper du contenu pour Baidu. Baiduspider
Scrapy Bot open-source pour récupérer du contenu massivement. Scrapy
HTTrack Outil pour copier des sites web en local. HTTrack
Wget Utilisé pour télécharger massivement du contenu. Wget

Comment bloquer un bot dans robots.txt ?

Si un bot effectue des requêtes indésirables sur votre blog, vous pouvez lui interdire l’accès en ajoutant une règle spécifique dans votre fichier robots.txt :

User-agent: BotName
Disallow: /

Si plusieurs bots doivent être bloqués, vous pouvez ajouter plusieurs règles :

User-agent: Bot1
Disallow: /

User-agent: Bot2
Disallow: /

User-agent: Bot3
Disallow: /

🚨 À noter

Certains bots ignorent robots.txt et peuvent toujours récupérer du contenu via des bases externes ou des proxys. Si votre blog est public, son contenu reste accessible.

Humour, le bots Sinatra

Comment tester son fichier robots.txt ?

Une bonne configuration du fichier robots.txt est essentielle pour s'assurer que les pages importantes sont accessibles aux moteurs de recherche et que les zones sensibles restent protégées.

Utiliser le "Testeur du fichier robots.txt" sur Bing Webmaster Tools

Google a retiré son outil de test dans sa console, mais Bing propose encore un testeur de robots.txt.

  • Connectez-vous à Bing Webmaster Tools.

  • Ajoutez et vérifiez votre blog si ce n'est pas encore fait.

  • Allez dans "Outils & améliorations" > "Testeur du fichier Robots.txt".

  • Entrez une URL de votre blog et testez si elle est bloquée ou autorisée.

Pourquoi l'utiliser ?

Bing suit globalement les mêmes règles que Google pour robots.txt, donc ce testeur peut être utile même si votre principal moteur de recherche cible est Google.

Tester le fichier robots.txt dans Bing Webmaster Tools

Le fichier robots.txt de Blogger.com

Outre le fichier robots.txt que vous pouvez personnaliser sur votre blog, il existe un second fichier propre à la plateforme Blogger.com elle-même. Celui-ci est accessible à l’adresse suivante : https://www.blogger.com/robots.txt

Ce fichier contrôle les pages techniques hébergées directement sur le domaine blogger.com. Ces pages, bien que liées aux fonctionnalités du blog, ne font pas partie du contenu principal de votre site. Il s’agit notamment de :

  • Les formulaires de commentaires externes (sur une page séparée).

  • Les fenêtres d’envoi d’article par email.

  • Les pages de gestion des followers.

  • Les outils d’administration internes à Blogger.

Ces directives s’adressent aux robots des moteurs de recherche afin de restreindre l’exploration de ces pages annexes. Leur indexation est inutile et pourrait altérer le référencement du blog en créant du contenu dupliqué ou en exposant des pages techniques non pertinentes pour les visiteurs.

Même si vous optimisez parfaitement le fichier robots.txt de votre blog et structurez soigneusement votre maillage interne, ces pages générées sur le domaine blogger.com restent indépendantes de votre propre fichier robots.txt. Toutefois, grâce à cette configuration intégrée côté plateforme, elles sont automatiquement bloquées à l’indexation, ce qui assure la propreté des résultats dans les SERP.

Enfin, ce comportement est identique quelle que soit la plateforme (CMS) utilisée. Chaque CMS ou service en ligne peut gérer un fichier robots.txt distinct pour ses propres ressources administratives.

Ressources officielles et complémentaires

Spotlight

La balise TITLE sur Blogger

Populaires cette semaine