Le fichier robots.txt est un fichier indispensable pour assurer la compréhension et la lecture de votre site Internet par les robots d’exploration ( les bots de Google par exemple ). A travers ce fichier, vous allez ainsi pouvoir indiquer aux robots de crawl quelle partie du site web doit être exploré et inversement.

Ce fichier SEO est donc très puissant. En mettant exclusivement en avant le contenu que vous voulez voir indexé sur Google, vous optimisez votre budget crawl.

Cependant, beaucoup de propriétaire de site Internet néglige ce point et laisse à l’indexation tout un ensemble de pages préjudiciables ou inutiles à l’utilisateur final.

Comment créer un fichier robots.txt ?

La création d’un fichier robots.txt est accessible à tous et ne demande pas de grande connaissance technique.

Pour créer un fichier robots.txt vous allez devoir suivre les opérations suivantes :

  1. Ouvrir un nouveau document à l’aide d’un éditeur de texte basique tel que Bloc-notes ou Notepad par exemple.
  2. Nommez ce document « robots.txt », cela implique que vous enregistrez ce document en format texte (.txt ).
  3. A l’intérieur de ce fichier, vous allez préciser un certain nombre de commande dont voici les principales :
    1. User-agent : cela sert à nommer le robot d’exploration visé par cette commande
    2. Disallow : cela permet de préciser que vous ne souhaitez pas voir explorer la page ou dossier suivant
    3. Allow : cela permet de préciser que vous souhaitez voir explorer la page ou dossier suivant
    4. Sitemap : cela permet de préciser l’url du fichier sitemap xml à explorer

Voici un exemple de fichier robots.txt

User-agent: Googlebot
Disallow: /nos-references/
Sitemap: http://www.example.com/sitemap.xml

Vous l’avez compris, ce fichier est très puissant. Il peut très facilement booster les pages importantes de votre site Internet. Mais l’inverse est également possible. En effet, si vous utilisez mal ce fichier, vous pourriez voir votre positionnement des pages importantes chuter.

Pourquoi désindexer des pages avec le fichier robots.txt ?

Comme nous l’avons précisé, ce fichier a pour unique mission d’indiquer à Google les pages que vous ne souhaitez pas qu’ils explorent inutilement. Il est assez fréquent de vouloir couper à l’exploration certaines pages de votre site.

Voici quelques exemples de pages que vous ne souhaiteriez par voir à l’exploration :

  • Des données confidentielles,
  • Des pages inutiles car faible en contenu,
  • Des pages en construction ( ou même un site web complet en construction )

En effectuant ce travail de sélection de pages à explorer ou non vous allez permettre de mettre en avant uniquement les pages que vous espérer voir à l’indexation. Les moteurs de recherches ne seront pas « distraits » par du contenus inutiles et iront à l’essentiel. Vous allez ainsi optimiser votre « budget crawl » ou budget d’exploration.

La différence entre fichier robots.txt et balise « noindex »

La balise « noindex » est une balise très utile qui permet ainsi d’éviter l’indexation d’une page web. Contrairement au fichier robots.txt, celle balise doit être consulté par les robots d’indexation pour que son message soit compris des moteurs de recherches.

Cela implique donc qu’il est indispensable de laisser le fichier robots.txt ouvert à l’exploration pour que les bots puissent interpréter à non indexation de cette page.

Pour résumer, lorsque vous voulez utiliser votre balise « noindex », vous ne devez surtout pas « disallow » cette page avec votre fichier robots.txt.

Le fichier robots.txt s’utilise essentiellement pour éviter l’exploration d’éléments structurels de son site Internet ( un dossier ou le site complet le temps du développement par exemple ).