Comment Ca Marche l'informatique ?
 
 Comment Ça Marche - Articles - Webmastering - Référencement - Robots.txt
 Accueil
 Forums
 Astuces
 Guide d'achat
 
   
 
 
Livres Comment ça marche?
Tout sur le hardware PC
Tout sur la sécurité
Tout sur le webmastering
Présentation des trois premiers ouvrages de la collection CommentCaMarche.net
Page d'accueil
Ajouter aux favoris
Contribuer à cet article
Ecrire à Jean-Francois Pillou
Webmastering
Introduction
Conception
Conception détaillée
Ergonomie
Navigation
Web design
Contenu
Réalisation
Langages
Nom de domaine
Hébergement
Hébergement
Data Center
Hébergement mutualisé
Hébergement dédié
Colocation (housing)
Marketing
Promotion
Référencement
Spamdexing
Cloaking
Robots.txt
Fidélisation
Fidélisation
Communauté virtuelle
Mesure d'audience
Statistiques de fréquentation
Publicité en ligne
Exploitation
Mise à jour
Suivi
Version 2.0.6
 
Robots.txt Page précédente Page suivante Retour à la page d'accueil

Présentation du fichier robots.txt

Le fichier robots.txt est un fichier texte contenant des commandes à destination des robots d'indexation des moteurs de recherche afin de leur préciser les pages qui peuvent ou ne peuvent pas être indexées. Ainsi tout moteur de recherche commence l'exploration d'un site web en cherchant le fichier robots.txt à la racine du site.

Format du fichier robots.txt

Le fichier robots.txt (écrit en minuscules et au pluriel) est un fichier ASCII se trouvant à la racine du site et pouvant contenir les commandes suivantes :

  • User-Agent: permet de préciser le robot concerné par les directives suivantes. La valeur * signifie "tous les moteurs de recherche".
  • Disallow: permet d'indiquer les pages à exclure de l'indexation. Chaque page ou chemin à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie "toutes les pages du site".

Attention Le fichier robots.txt ne doit contenir aucune ligne vide !

Voici des exemples de fichier robots.txt :

  • Exclusion de toutes les pages :
    User-Agent: *
    Disallow: /
  • Exclusion d'aucune page (équivalent à l'absence de fichier robots.txt, toutes les pages sont visitées) :
    User-Agent: *
    Disallow: 
  • Autorisation d'un seul robot  :
    User-Agent: nomDuRobot
    Disallow:
    
    User-Agent: *
    Disallow: /
    
  • Exclusion d'un robot :
    User-Agent: NomDuRobot
    Disallow: /
    
    User-Agent: *
    Disallow:
    
  • Exclusion d'une page :
    User-Agent: *
    Disallow: /repertoire/chemin/page.html
  • Exclusion de toutes les pages d'un répertoire et ses sous-dossiers :
    User-Agent: *
    Disallow: /repertoire/

Quelques User-Agents

Voici quelques exemples de User-Agents pour les moteurs de recherche les plus populaires :

Nom du moteur User-Agent
Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
InfoSeek InfoSeek Sidewinder
Lycos T-Rex
Voilà Echo

Pour plus d'informations

The web robots page


Page précédente Page suivante

  Ce document intitulé « Webmastering - Référencement - Robots.txt » issu de Comment Ça Marche est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.