Robots.txt

Robots.txt est un fichier texte qui permet à un site Web de fournir des instructions aux robots d’exploration du Web. Les moteurs de recherche tels que Google utilisent ces robots Web pour archiver et parcourir les sites Web. La plupart d’entre eux sont configurés pour rechercher un fichier robots.txt sur le serveur avant de lire tout autre fichier du site Web. Cela permet de voir si le propriétaire d’un site Web a des instructions spéciales sur la façon d’analyser et d’indexer son site.

Le fichier robots.txt contient un ensemble d’instructions qui demandent au robot d’ignorer des fichiers ou des répertoires. Cela peut être à des fins de confidentialité ou parce que le propriétaire du site Web estime que le contenu de ces fichiers et répertoires n’est pas pertinent pour la catégorisation du site Web dans les moteurs de recherche.

Si un site Web a plusieurs sous-domaines, chaque sous-domaine doit avoir son propre fichier robots.txt. Il est important de noter que tous les robots n’accepteront pas un fichier robots.txt. Certains robots malveillants liront même le fichier robots.txt pour trouver les fichiers et les répertoires à cibler en premier. De même, même si un fichier robots.txt indique aux robots de ne pas utiliser certaines pages du site, celles-ci peuvent toujours apparaître dans les résultats de la recherche, car elles sont liées à d’autres pages explorées.