Dernière modification de cet article le 31 juillet 2024 par Hugo
Le fichier robots.txt est un élément important de votre site et pour le SEO, même si ce n’est pas lui qui vous propulsera à la première position. C’est quand même la première page que les bots des moteurs de recherche viennent visiter lorsqu’ils arrivent sur votre site, et en plus les directives de ce fichier peuvent avoir un impact conséquent sur le référencement naturel si mal géré. Aujourd’hui je vous propose donc un nouvel outil gratuit, mon générateur de robots.txt 100% optimisé SEO.
Outil gratuit pour générer votre fichier robots.txt optimisé SEO
Ce générateur s’applique aux sites sous :
- WordPress
- Wix
- Prestashop
- Shopify
- Joomla
- Webflow
- Squarespace
- Drupal
- Magento
- Les autres CMS (toutefois sans informations supplémentaires)
- Et les sites From-Scratch
Les éléments du générateur en détails
Indexation générale
C’est la base de la base, mais l’indexation est au final le critère le plus important en SEO : une page non-indexée ne pourra générer aucun trafic SEO (on avait déjà vu ça dans l’article sur les problèmes d’indexation). Tout simplement car elle ne sera pas présente dans l’index des moteurs de recherche. Par contre, si votre site est en pré-prod, refonte ou autre, ne le faites pas encore indexer et rendez l’indexation impossible.
Concernant le détail des réponses :
- Oui : Votre site pourra générer du trafic SEO (accessible par les moteurs de recherche)
- Non : Empêche tout SEO possible (inaccessible par Google et ses compères)
Si vous avez un doute, le simple fait que vous soyez sur cet article devrait vous faire sélectionner « Oui« .
CMS / Technologie utilisée
WordPress
Pour générer un robots.txt spécialement conçu pour le SEO de WordPress, j’ai indiqué d’enlever notamment l’indexation et le crawl des fichiers de connexion et répertoires avancés.
Wix
Pas grand chose de différent pour le robots.txt de Wix, simplement un élément lightbox à enlever du crawl.
Prestashop
L’outil a pour but d’empêcher la visite et l’indexation des fichiers internes et répertoires dédiés au fonctionnement. Si vous avez un Prestashop, vous verrez le robots.txt généré plus fourni que pour les autres CMS.
Shopify
Surtout des éléments internes sont listés : empêcher leur visite aidera à améliorer votre budget crawl.
Joomla
On empêche le crawl des éléments hors back-office mais nécessaires au bon fonctionnement de votre site web sous Joomla.
Webflow
Un cas un peu particulier : j’ai demandé à l’outil d’empêcher les bots de visiter la page de tableau de bord, mais les ai tout de même autorisé à accéder aux pages de connexion. Plus pratique pour les sites dont les clients accèdent régulièrement à leur compte (de mon expérience, il y en a davantage sur Webflow).
Squarespace
Attention dans ce cas particulier : j’ai empêché l’indexation des résultats de recherche interne. Si vous souhaitez qu’ils soient crawlés et indexés, retirez « Disallow: /rechercher » dans votre robots.txt fraîchement généré
Drupal
Beaucoup de disallow insérés, de même majoritairement pour les fichiers et répertoires internes.
Autre CMS / Sites web From-Scratch
Simplement pas d’autres directives ajoutées dans mon générateur. Il faudra, si vous avez des répertoires ou fichiers que les moteurs de recherche ne doivent pas explorer, les ajouter dans la partie des pages à ne pas indexer (expliquée d’ailleurs juste ci-dessous).
Pages à ne pas indexer
Ici, entrez simplement les URLs de votre site dont vous souhaitez empêcher l’exploration et l’indexation. Exemples de pages à ne pas indexer :
- Les fichiers internes aux collaborateurs de l’entreprise
- Les pages dupliquées
- Toutes les pages orientées Marketing (les Landing Pages, E-book, etc…)
- Les pages à très faible valeur ajoutée
- Et toutes vos magouilles dont vous souhaitez garder le secret (du moins vis-à-vis des bots d’exploration)
Lien du sitemap
Enfin, on ajoutera le lien du sitemap pour que les robots du moteur de recherche puissent l’identifier rapidement. Pratique si vous n’avez pas un simple /sitemap.xml/.
Où implanter son fichier robots.txt ?
Dernière étape une fois votre robots.txt fin fini : l’uploader sur votre site. Il doit être à la racine de ce dernier (c’est à dire au plus haut possible dans l’arborescence des fichiers). Pour ça, plusieurs méthodes :
- Connectez-vous à votre FTP via un outil dédié (Filezilla, WinSCP…) et uploadez-le dans le 1er répertoire (le plus haut) dédié à votre site web.
- Si vous avez Cpanel, accédez à l’éditeur de fichiers, et de même uploadez-le dans le répertoire le plus proche de la racine de votre site internet.
- Certains CMS comme Wix ou Prestashop proposent d’ajouter / modifier directement les robots.txt depuis le back-office.
- D’autres, comme WordPress, nécessitent des plugins si on veut hésiter de le faire à la mano.
Conclusion
Je pense que c’est la 1ère fois que j’écris un article avec si peu de documentation trouvée en ligne : pour définir les indications propres à chaque CMS, j’ai dû dans la majorité des cas regarder les robots.txt des sites officiels et populaires SEO parlant pour en extraire des directives cohérentes. De même pour la conception de ce générateur, j’ai dû passer une bonne heure et demie avant d’avoir un résultat potable (il faut vraiment que je m’améliore sur mes prompts), mais je suis content de pouvoir vous proposer cet outil gratuitement. N’hésitez pas à commenter pour indiquer si vous avez des idées de perfectionnement, et si vous avez apprécié l’outil, à le partager. Enfin, si vous souhaitez une stratégie SEO sur-mesure, n’hésitez pas à découvrir mon profil de consultant SEO Freelance.