Probablement l’un des concepts que je cite le plus dans mes articles (je me frotte déjà les mains en imaginant le maillage interne que je vais faire), vous avez probablement déjà dû entendre parler du Budget Crawl. Notion pas directement liée à l’optimisation d’un aspect en particulier, elle est cependant capitale pour rendre votre site explorable par les moteurs de recherche, et indexer vos pages. Mais qu’est-ce donc concrètement, et comment l’optimiser ? Je vous réponds en détails.
Qu’est-ce que le Budget Crawl ?
Définition du budget Crawl
Le Budget Crawl représente simplement les ressources allouées par Google à ses robots (les Googlebots) pour explorer votre site. Aussi appelé budget d’exploration, il définit la fréquence à laquelle viennent ces bots sur votre site, et le nombre de pages qu’ils visiteront.
De manière plus concrète, un Crawl Budget élevé fera que votre site sera exploré plus fréquemment et davantage en profondeur par les Googlebots, alors qu’un budget d’exploration faible se traduira par des visites moins fréquentes des robots de Google, et la possibilité qu’il ne puisse pas consulter certaines URLs à cause de ses ressources allouées trop limitées.
Son fonctionnement
Ressources allouées par Google
Tout simplement, c’est le moteur de recherche Google lui-même qui définit un Budget Crawl pour chaque site, à partir de différents critères (que nous verrons juste après). Bien que la firme de Mountain View soient l’une des plus grandes entreprises mondiales, il a tout de même des centaines de milliards de pages à visiter avant indexation, d’où l’objectif de donner un budget d’exploration cohérent à chaque site web en fonction de sa qualité.
Et pourtant, il arrive tant bien que mal à faire, il faut le reconnaître, un excellent travail sur l’exploration et indexation.
Critères
Et pour définir ce budget crawl cohérent, Google prend en compte notamment les critères suivants :
- Qualité des contenus : Des pages à forte valeur ajoutée incitent les Googlebots à explorer davantage le site, pour trouver d’autres contenus de forte qualité.
- Taille du site : Un gros site internet doit forcément avoir un budget crawl supérieur à un petit, afin de couvrir son exploration
- Popularité et autorité de domaine du site : Je mets les 2 ensemble car leur principe est similaire, plus un site est populaire sur la toile / cité grâce à des backlinks, plus Google verra qu’il offre une valeur ajoutée (ou au moins un intérêt) aux utilisateurs et viendra le visiter régulièrement.
- Vitesse : Aussi bien du côté serveur que directement sur le site web, une URL qui se charge rapidement consomme moins de ressources, laissant davantage de budget pour le reste des contenus.
- Fréquence de publication : Et enfin, notamment pour les médias, si vous habituez Google à publier de manière constante (avec des contenus de qualité), il reviendra plus régulièrement pour découvrir vos nouveaux contenus.
- Redirections et erreurs 4XX : Si les googlebots doivent passer par un chemin allongé pour accéder à l’URL (ou pire, si cette URL ne mène à rien), il gaspille des ressources. Et si son ratio Budget crawl déployé / valeur ajoutée est trop faible, il adaptera ses ressources pour ne pas en mettre trop dans le vent.
Il ne s’agit pour autant que des principaux critères généraux, meilleure sera l’optimisation SEO générale du site, meilleur sera le budget d’exploration.
Peut-on voir le Crawl Budget de son site ?
On peut voir un semblant grâce à la Google Search Console :
- Allez sur la propriété de votre site web
- Paramètres > Statistiques et rapports
- Vous pourrez voir diverses données, telles que le nombre de demandes d’exploration journalières, la taille de téléchargement des ressources de votre site et son temps de réponse aux sollicitations.
Mon rapport d’exploration. Plutôt intéressant pour un site d’une cinquantaine de pages.
Une autre méthode plus précise (mais forcément, plus fastidieuse, ce ne serait pas drôle sinon) serait de passer par une analyse de logs : vous pourrez retracer directement les visites du robot sur votre site, mais aussi le détail de son exploration.
Pourquoi optimiser son budget Crawl ?
En référencement naturel, on va logiquement chercher un Budget Crawl le plus élevé possible pour que les googlebots visitent notre site le plus souvent possible en quête de nouveaux contenus et consultent toutes les pages à chaque passage. Mais si on rentre un peu plus dans le détails un Crawl Budget optimisé permet à Google de :
- Explorer la totalité des pages avec un intérêt SEO sur le site, en vue d’une indexation
- Découvrir les nouveaux contenus publiés plus rapidement
- Réexplorer les anciens textes, et prendre en compte les mises à jour
- Et on l’avait vu lors de mon article sur le SEO Javascript, mais les ressources en Js ont un processus d’exploration plus complexe, nécessitant plus de temps et de moyens avant d’arriver à une indexation, d’où le fait d’avoir un budget crawl élevé peut aider.
L’état des ressources d’exploration de Google en 2024
Sans détour, l’état du Budget Crawl de Google en 2024 est… compliqué. Les contenus IA ont envahi le web, si bien qu’il n’a jamais été aussi simple de produire et publier du contenu massivement (à part avec le spinning, mais pour ce cas qui est bien plus simple à identifier et pénaliser si mal fait).
On retrouve régulièrement des rapports d’erreur du Géant Américain aussi bien sur l’exploration, l’indexation, le classement et la délivrabilité des contenus.
Ceci dit, aucun problème répertorié sur la semaine précédant la publication de cet article.
Mais pour autant, Google ne perd pas la face : les médias et sites web réputés se font crawler toujours aussi fréquemment et en profondeur, parfois même de manière ininterrompue. Alors certes, obtenir un Crawl Budget décent en 2024 est plus difficile, mais pour autant avec un site et des optimisations de qualité comme je vais vous le détailler juste après, vous y arriverez naturellement (de mon côté, j’y arrive avec mes clients de toutes tailles).
Comment optimiser son Budget Crawl en 2024 ?
- Proposer des contenus à forte valeur ajoutée, et de qualité (attention : l’IA peut faire plus de mal que de bien à votre SEO si mal encadrée).
- Recevoir des backlinks venant de vrais sites de qualité, et non des fermes à liens déjà surexploités et n’ayant plus de jus à donner.
- Être présent également en dehors de votre site, sur les réseaux sociaux par exemple, et recevoir du trafic autrement que via les résultats de recherche Google.
- Améliorer son maillage interne, faire attention à ne pas avoir d’URLs orphelines.
- Fournir directement les URLs valides pour chaque lien, en évitant notamment les redirections 3xx et erreurs 4xx.
- Réécrire / supprimer les pages zombies (surtout celles non-indexées malgré de multiples tentatives, comme on l’avait vu lors de l’article sur les problèmes d’indexation et leurs potentielles causes).
- Indiquer les pages à ne pas explorer dans votre fichier robots.txt.
Conclusion
Vu le nombre de fois que j’ai mentionné cette notion, je suis presque moi-même surpris de vous proposer un article dessus que maintenant. Mais bon, mieux vaut tard que jamais, et l’optimisation d’un site pour se voir attribuer un Budget Crawl cohérent ayant un peu changé par ses techniques en 2024, c’est même potentiellement un mal pour un bien. Quoi qu’il en soit, j’espère avoir pu vous éclairer sur les notions de ce fameux Crawl Budget, et si vous avez une problématique plus complexe, en tant que consultant SEO Lyonnais je serais ravi d’y jeter un oeil.