Conseils SEO (technique, template et local)

Comment booster votre SEO grâce au fichier robots.txt

By 23 mars 2020 No Comments
seo en 2020

Comment créer votre fichier robots.txt ? Et comment faire pour que celui-ci  favorise l’indexation de vos pages utiles même si ce n’est pas sa fonction première ?

L’objectif du référencement naturel, ou SEO, Search Engine Optimization est entre autres de permettre aux robots des moteurs de recherche d’accéder en priorité aux pages génératrices de trafic et de conversions, c’est à dire accéder aux pages qui ont un intérêt référencement.

On appelle cela favoriser le crawl utile, le crawl des pages utiles au référencement.

Une des actions qui nous permet d’arriver à ce résultat est l’utilisation du fichier robots.txt.

L’effet du fichier robots.txt est indirect : Il va indiquer aux robots des moteurs  les zones de votre site à ne pas crawler. Indirectement donc, la configuration du robots.txt va orienter le crawl de Google sur les pages dites utiles.

Rentrons plus dans le détail maintenant.

Prêt.e.s ? C’est parti !

 

Sommaire

 

  • Qu’est ce que le fichier robots.txt ? A quoi sert-il ?
  • Comment le modifier ?
  • Comment le créer sur WordPress ?
  • Comment remplir le fichier ?

 robots.txt avec yoast seo

 

Qu’est ce que le fichier robots.txt ? A quoi sert-il ?

 

Emplacement du fichier robots.txt

 

Le fichier robots.txt est un fichier au format .txt comme son extension l’indique, qui se place à la racine du serveur (de telle sorte qu’il soit accessible au type d’url suivant : nomdedomaine.com/robots.txt).

Exemple avec mon propre robots.txt :https://ateliers-digitaux.com/robots.txt.

Vous pouvez vérifier il est là.

Pour information, ou pour rappel, le fichier sitemap.xml se place au même endroit que le robots.txt.

Le fichier robots.txt (respectez cette syntaxe, pas robot.txt par exemple) est un fichier de configuration indispensable sur votre site. Il fait partie des standards du référencement.

 

Objectif du fichier robots.txt

 

Le fichier robots.txt a pour objectif d’indiquer aux robots des moteurs de recherche les url ou variables d’url qu’on ne souhaite pas voir crawlées et donc affichées dans l’index de Google.

 

Indication d’Url dans le fichier robots.txt

 

Une url correspond à l’adresse d’une page. Par exemple : https://ateliers-digitaux.com/inscription.html

Pour rappel : une url = une page. Une page = une url.

Dans le robots.txt on peut interdire aux moteurs de recherche d’accéder à cette url complète.

 

Qu’est-ce qu’une variable d’url ?

 

Une variable d’url correspond à un élément dynamique dans l’url pour trier, filtrer, paginer.

Par exemple, sur les pages catégories des sites e-commerce, il est la plupart du temps possible de filtrer les produits de multiples manières :

Par couleurs, matières, prix, taille, marques, coupe etc.

Selon la technologie employée derrière, on peut avoir des variables d’url qui se rajoutent. L’utilisateur ne voit rien, c’est uniquement au niveau de l’utilisateur que ça se passe.

On peut donc se retrouver avec 10 url pour une seule et même page. On gonfle artificiellement le volume de pages du site.

Est-ce une bonne chose ? Oui ? Non ?

Non, bien sûr, cette situation provoque de la duplication de contenus en masse.

Cela signifie que les moteurs se perdent dans vos pages, perdent du temps et des ressources à ne pas crawler les “bonnes” pages, c’est à dire les pages canoniques, les pages de référence (après on peut utiliser les pages en duplication différemment en donnant un autre objectif sémantique à la page mais ce n’est pas l’objectif de cet article).

 créer le fichier robots.txt attention aux filtres de navigation

Par exemple cette page

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes.html

est accessible de X manières différentes :

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-10-20.html => Filtre prix bas

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-20-30.html => Filtre prix haut

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/saison-ete.html => Filtre saison

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/couleur-marron.html => Filtre couleur

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/taille-6-mois-3-ans.html => Filtre taille

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/sexe-mixte.html => Filtre sexe

Pour complexifier le problème il est également possible d’associer plusieurs filtres en même temps :

Couleur marron pour garçon été.

Couleur rose pour fille hiver.

etc.

On se retrouve donc avec beaucoup de pages “inutiles” pour le SEO.

Donc pour éviter que Google et autres moteurs se perdent dans ces pages, on indique dans le fichier robots.txt que toutes les url qui comportent au moins une de ces variables ne doivent pas être crawlées et donc non indexées.

 

Comment créer et / ou modifier le fichier robots.txt ?

 

Le fichier robots.txt est constitué du format suivant :

User-agent: *

Disallow: *

User-Agent : Ce sont les robots des moteurs auxquels vous donnez des instructions.

Si vous n’avez pas d’instructions pour un robot en particulier, vous laissez tel quel. Cela signifie que les règles que vous énoncez après s’appliquent à n’importe quel robot.

Disallow : cette commande indique que le robot ne devra pas crawler l’url ou variable d’url indiquée.

Si on reprend l’exemple vu plus haut cela donnera :

  • Disallow : /prix-10-20.html
  • Disallow : /prix-20-30.html
  • Disallow : /saison-ete.html
  • Disallow : /couleur-marron.html
  • Disallow : /taille-6-mois-3-ans.html
  • Disallow : /sexe-mixte.html

Sauf que ça peut être rébarbatif et long de lister l’ensemble des variables, dans ce cas on fait des règles par types de variables (j’ai remplacé le champ variable par un *).

  • Disallow : /prix-*.html => Toutes les variables prix
  • Disallow : /saison-*.html => Toutes les variables saison
  • Disallow : /couleur-*.html => Toutes les variables couleur
  • Disallow : /taille-*.html => Toutes les variables taille
  • Disallow : /sexe-mixte.html => Toutes les variables sexe

Last but not least, il vous est recommandé (par les moteurs eux-mêmes) d’ajouter en bas du robots.txt l’url d’accès à votre fichier sitemap.

Cela donnera :

Sitemap : https://domaine.fr/sitemap.txt

Dernière information, faites très attention à l’utilisation du /.

Disallow : / signifie que vous bloquez au crawl des moteurs l’ensemble de vos pages.

Si vous n’avez rien à bloquer, ne mettez rien. Juste :

Allow : /

Si vous n’avez rien à bloquer dans votre robots.txt, on verra dans un prochain article, comment mettre en place une navigation interne user-friendly et seo-friendly.

 

Comment remplir le fichier robots.txt ?

 

Alors effectivement, bonne question, suite à ce qui a été mentionné plus haut, comment remplir efficacement le fichier robots.txt ?

Maintenant que vous avez conscience de l’importance de ce fichier, comment pouvez-vous le remplir afin qu’il puisse aider les robots des moteurs de recherche à crawler en priorité les contenus utiles ?

Première étape fondamentale pour créer le fichier robots.txt :

Il vous convient d’identifier l’ensemble des pages que vous avez sur votre site.

Pour ce faire, la meilleure solution reste encore l’utilisation de l’outil Screaming Frog. Découvrez le guide ici pour l’utiliser correctement.

 indexer une page web : attention au code réponse

Seconde étape pour créer le fichier robots.txt :

Identifiez les pages de votre site qui n’ont pas vocation à être dans l’index Google (pages formulaires par exemple, pages en duplication, pages présentant trop peu de contenu). Si vous avez un doute, regardez sur Analytics ou autre outil de suivi de trafic, le volume de trafic de ces pages, et les sources de trafic de ces pages.

Troisième étape pour créer le fichier robots.txt :

Regardez dans le listing d’url récupérées depuis Screaming Frog, les url en duplication dont vous n’aviez peut-être même pas conscience d’où l’intérêt de ce genre d’exercice).

Ou même des pages dont vous aviez oublié l’existence.

Quatrième étape :

L’idée ensuite est de formaliser les résultats de vos analyses dans le robots.txt. Que ce soient des url complètes ou de simples variables d’url.

 

Comment le créer sur WordPress ?

 

 créer le fichier robots.txt avec yoast seo

Via WordPress, la procédure est assez simple.

Installez le plugin Yoast SEO.

Allez ensuite dans Outils puis éditeur de fichiers.

Là vous activez la création par défaut du fichier robots.txt. Le contenu par défaut est celui-ci :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Une fois le fichier créé vous pouvez le modifier ou compléter directement dans Yoast SEO.

Pour les plus téméraires, il y a une autre solution très sympa.

Vous créez un fichier robots.txt que vous enregistrez en local sur votre machine.

Vous pouvez le compléter dès le départ.

Ensuite, via un outil ftp tel que FileZilla vous allez uploader votre fichier dans le répertoire /public_html.

Une fois fait, testez l’url du fichier dans votre navigateur pour vérifier que la manipulation était bonne.

 créer le fichier robots.txt avec un ftp

 

Conclusion

 

Comme vous avez pu le voir tout au long de cet article, gérer votre fichier robots.txt ne s’avère pas aussi évident.

Il faut faire les bons choix, et surtout ne pas chercher à bloquer par erreur des pages qui ont un intérêt pour votre référencement.

Encore une fois, il vous faut faire attention à la manière de manier votre fichier.

Comme vous avez pu le constater également, ce n’est pas le robots.txt qui va seul vous booster votre SEO, en revanche, on peut dire que le travail du fichier aide les moteurs indirectement à aller vers les pages importantes, et ainsi consommer du crawl utile et non du crawl inutile.

Vous trouverez plus d’informations sur le site officiel : http://robots-txt.com/

Exercice complètement inverse : Découvrez comment indexer efficacement une page web.

Egalement : Comment rendre vos pages SEO-friendly.

Et enfin découvrez comment gérer le référencement d’un site e-commerce.

J’espère que cet article vous a plu, et a répondu à vos questions.

Partagez, likez, commentez !