Dernière modification de cet article le 5 septembre 2024 par Hugo
Si vous faisiez déjà du SEO entre 2021 et 2022, il y a de fortes chances que vous ayez eu vent des problèmes d’indexation de Google à cette époque, voire dans le pire des cas que vous ayez été directement touché. En termes de référencement naturel, la non-indexation d’une page-clé est le pire problème possible. Je vous propose donc aujourd’hui un focus sur le principe de l’indexation, mes techniques pour l’assurer sur ses pages et un cas concret exclusif pour les illustrer.
Le concept de l’indexation
Définition
L’indexation représente le principe qu’une page soit présente sur un moteur de recherche. Voyez Google et ses comparses comme un annuaire géant : vous pouvez exister, mais ne pas être référencé dessus. Dans le cas du SEO, vous pouvez avoir un site en ligne, accessible par tous, mais pas catalogué par les moteurs de recherche.
Pourquoi c’est important en SEO ?
Pas d’indexation, pas de positionnement. Pas de positionnement, pas de rentabilité. Pas de rentabilité… pas de rentabilité.
Si vous avez reconnu ma référence à ce célèbre film, c’est avant tout pour mettre en avant la simplicité de la réponse à cette question. Pas d’indexation = page non présente sur les moteurs de recherche = pas de SEO. Et dans le cas où votre stratégie d’acquisition est basée sur le référencement naturel, une page non-indexée empêche tout CA par ce canal.
Est-ce que l’on peut savoir si une page est indexée ?
Absolument, et ce de plusieurs manières très simples :
- Pour voir si une page est indexée, allez sur Google.fr, et recherchez « site:votresite.com/votrepage/ ». Si on fat le test avec mon dernier article sur les 5 meilleures plateformes Netlinking en 2024, on peut voir qu’il est bien indexé (toujours mieux pour un SEO de métier).
Bon par contre ma Title saute, c’est pas forcément bien…
- Et concernant le rapport d’indexation sur un site entier, direction la Google Search Console. Il vous suffira d’étudier les informations de la rubrique « Indexation ».
Sachant que j’ai des pages en noindex, je m’en tire plutôt très bien. Le contraire aurait été inquiétant ceci dit.
Comment Google gère l’indexation ?
Faire au mieux avec les ressources
Alors oui, ce titre peut vous faire doucement rire : LE géant planétaire, probablement l’entreprise la plus avancée technologiquement au monde, incapable d’indexer la recette de la tarte à la myrtille de votre grand-mère ? Eh bien figurez-vous que ce n’est pas si simple que ça,
Déjà, Google a des centaines de milliards de pages internet dans son index. Le poids ? Plus de 100 millions de Go. La source de cette information ? Google lui-même.
La firme de Mountain View a beau être multimilliardaire, l’exploration et l’indexation des pages représente un coût massif sur la totalité du globe. Ce n’est pas pour rien qu’on emploie le terme de « Budget crawl » pour définir les ressources d’exploration que les robots accordent à un site.
Est-ce qu’il y a une raison particulière pour que ma page ne soit pas indexée ?
Facteurs internes ou externes, il peut s’agir d’une raison critique, ou simplement de l’accumulation de différents motifs. Gardez cependant à l’esprit que majoritairement, ce sont les facteurs internes qui sont mis en cause, même si certains facteurs externes peuvent exister.
Facteurs internes
Ce sont les facteurs propres à votre site : des bémols sur sa technique, son contenu ou son Netlinking peuvent influencer ça. Tout est donc corrigeable de votre côté.
Facteurs externes
Les moteurs de recherche peuvent rencontrer des problèmes d’indexation aussi par moment, tout comme de crawl, de positionnement ou encore de serveur. Pour consulter si c’est le cas, Google propose au public ses statuts directement à cette URL : https://status.search.google.com/ .
Cas d’exemple concret de pages non-indexées et fil rouge de cet article
Dans le plus grand des hasards, je suis tombé sur ce post sur Linkedin :
J’ai donc contacté Ludovic Martinet, fondateur de Les As Frenchies, pour une proposition : auditer son site https://www.lesasfrenchies.com/ sur ses problèmes d’indexation gratuitement, contre la possibilité de publier les résultats dans cet article. Ludovic ayant accepté la proposition, je suis ravi de pouvoir vous présenter un fil rouge concret dans cet article.
Le post mentionne des problèmes d’indexation au niveau de pages du blog. Focus donc sur les méthodes à employer pour aller les indexer.
Note : Depuis la sortie du post, Ludovic a notamment ajouté du maillage interne vers ses pages blog non-indexées, et utilisé la solution Foudroyer (que je vous présenterai). Les 2 ont notamment aidé à l’indexation de quelques pages, mais il en reste encore non-indexées.
Causes et solutions des problèmes d’indexation
L’idée est de présenter d’abord les méthodes incontournables de base, jusqu’à de plus en plus se plonger dans les techniques avancées, voire pas vraiment white hat. Bien sûr, chaque solution est présentée, expliquée et analysée sur notre fil rouge.
Meta robots « follow, index »
Mes excuses si vous êtes un autre chevronné du SEO, mais je dois bien commencer par le basique avant de traiter l’avancé. Tout simplement cette première étape consiste à vérifier si vous dites bien aux moteurs de recherche que votre site web est disponible à l’indexation.
Comment faire ?
Pour cela, on s’assurera que votre site internet contienne sur ses pages indexables la balise Meta Robots « follow, index ».
Ou plus simple, on peut rechercher dans le code source de la page la présence de la balise « noindex », qui indique aux moteurs de recherche qu’il ne faut pas indexer cette page. Si vous ne la trouvez pas, c’est parfait : votre page est techniquement indexable sur le papier.
Si vous êtes sur WordPress, rendez-vous dans « Réglages »puis « Lecture ». Décochez la case « Visibilité pour les moteurs de recherche » si elle est cochée. Aussi, des extensions comme Yoast permettent de définir par défaut (puis de configurer ensuite soi-même page par page) si une typologie de pages est indexable ou non.
Fil rouge
Ce qui est assez curieux, c’est que nous avons des pages indexables avec cette balise « index, follow » présente, et sur d’autres non. Mais rien de rédhibitoire : en l’absence de cette balise, Google attribue la directive « index, follow » par défaut. Après test, il y a tout aussi bien des pages indexées comportant cette directive que non, donc la solution ne se trouve pas là.
Pas de noindex présent sur le site dans les pages html. Il y a bien des balises canoniques sur quelques pages cependant, ce que nous verrons après.
Assez curieux effectivement…
Robots.txt valide
Le fichier robots.txt est la toute première page qu’un robot d’exploration d’un moteur de recherche consulte sur votre site. Il sert à définir quelles ressources les robots peuvent visiter, ainsi que les ressources interdites. On peut aussi y spécifier l’emplacement du sitemap, que nous verrons ensuite.
Comment ça marche ?
Il faut simplement uploader un fichier texte, nommé robots.txt, à la racine de votre site. Certains CMS le font automatiquement, ou leurs plugins le proposent. Vous avez simplement à indiquer d’abord les robots concernés aux directives (pour s’adresser à tous les robots, utilisez « user-agent: * »), puis à indiquer ces directives voulues, avant de fournir le sitemap plus bas.
D’ailleurs, si vous souhaitez proposer un fichier respectueux des guidelines du référencement naturel pour chaque CMS, essayez mon générateur gratuit de robots.txt SEO.
Fil rouge
Le fichier robots.txt de Les As Frenchies est certes bien rempli, mais pas gênant pour autant. Les directives sont bonnes, empêchent l’exploration et indexation des pages non désirées, et les pages dont on souhaite l’indexation sont bien accessibles par les robots. Il manquerait un simple lien vers le sitemap, mais sachant qu’il a déjà été envoyé sur la Search Console, ce ne serait pas la recette miracle.
J’ai vu dans les réponses du post Linkedin en question une compère SEO pointant du doigt la directive « crawl-delay: 10 », indiquant un délai d’exploration minimum aux robots pour ne pas surcharger le serveur. Sauf que… Google ne prend pas en compte cette directive. Donc non, c’est une fausse piste, et enlever ou modifier ça n’aidera pas le site dans son problème d’indexation (du moins pour la présence sur Google, il faut savoir que d’autres moteurs de recherche comme Bing et Yandex prennent en compte cette directive).
Présence dans le sitemap.xml
Le sitemap, c’est un fichier accessible à la racine de votre site, mettant en avant toutes les URLs à visiter et indexer pour les moteurs de recherche. Google fonctionne comme ceci :
- Il explore le robots.txt
- Google visite le sitemap et découvre les URLs à visiter et indexer du site
- Il lance ses googlebots à la découverte de votre site et de ses pages
Comment faire ?
Si vous êtes sous un CMS, nombre d’entre eux proposent des plugins proposant eux-mêmes de créer un sitemap.xml automatique à partir des pages indexables de votre site. Ne serait-ce que Yoast sous WordPress par exemple.
Sinon, vous pouvez très bien proposer votre propre liste d’URLs et uploader un fichier texte manuellement à la racine de votre site.
Fil rouge
Là on tient quelque chose ! 58 URLs présentes dans le sitemap, contre 334 URLs crawlées, répondant en 200 et indexables selon Screaming Frog, bien en tenant compte des directives du robots.txt.
Pour un peu que le budget crawl du site soit limité, et le maillage interne peu développé, couplé à des pages trop profondes dans la hiérarchie, le fait que beaucoup de pages manquent dans le sitemap peut jouer sur le fait qu’elles ne soient ni explorées, ni indexées par conséquent.
Par contre, 334 URLs crawlées et aussi peu dans le sitemap, ça peut aussi vouloir dire que des pages non désirées ou dont on ne connaît pas encore l’existence sont belles et bien présentes sur le site, et indexables. On voit ça sur une autre section plus bas.
Canonicals
Les canonicals, ou balises canoniques en français, servent à indiquer aux moteurs de recherche quelle page indexer en cas de page quasi-dupliquée. Par exemple, s’il n’y a pas d’intérêt SEO, si vous vendez un produit en plusieurs tailles et que une page est créée pour chaque taille, il peut être intéressant de choisir une page à référencer et de faire pointer des canonicals vers elle depuis les autres tailles.
Des canonicals mal gérées peuvent pourrir le SEO d’un site : du moment que vous avez une balise canonique sur une page A pointant vers une page B, vous indiquez à Google de ne pas prendre en compte la page A. Donc à utiliser avec parcimonie.
Comment faire ?
Si vous n’avez pas de pages semi-dupliquées ou très similaires, ne renseignez pas de canonical. Dans l’idéal, une page ayant pour but d’être indexée doit contenir une self-canonical (la balise canonique pointe vers l’URL de la même page), mais dans les faits Google et ses compères comprennent très bien qu’il faut indexer la page, même sans balise canonical renseignée.
Fil rouge
On a quelques pages canonisées de la section blog, 3 en l’occurrence, pointant vers une autre URL. Problème : ces pages pointent vers d’autres pages… Elles-mêmes redirigées en 301 vers la page d’origine. Une perte de temps pour les robots certes, mais n’empêchant pas l’indexation, étant donné que ces 3 pages sont bien indexées.
Page accessible au crawl et bien maillée
Par accessible au crawl, je veux dire que les Googlebots peuvent s’y rendre grâce à des clics depuis la page d’accueil. Si ce n’est pas le cas, on considèrera la page comme orpheline, et si elle est indexable, il faudra au choix la mailler ou la supprimer pour ne pas pénaliser le SEO de son site.
Pour le maillage interne, il s’agit de faire des liens depuis d’autres pages vers cette page. Objectif : apporter aux utilisateurs une ressource en lien intéressante, et pour les robots, faciliter l’indexation et la découverte de pages.
Comment ça marche ?
On utilisera un crawler tel que Screaming Frog pour simuler l’exploration d’un site à la manière d’un Googlebot. Une fois le crawl fini, vous pourrez voir les URLs détectées par le crawler, et vous assurer que les pages que vous souhaitez indexer y figurent.
Si c’est le cas, c’est qu’elles sont un minimum maillé. Mais pour améliorer ça, n’hésitez pas à regarder le nombre de liens internes reçus par votre page en question.
Fil rouge
L’idéal serait de confirmer ça avec un export Search Console, mais à priori il n’y a pas d’URLs du blog non accessible au crawl. Au contraire, les articles non-indexés sont bien maillés par au moins une petite dizaine de pages chacun, et surtout, par des liens contextuels.
Cependant, Ludovic m’a indiqué avoir ajouté des liens internes vers ces pages après la publication du post. Le maillage interne est bien fait, ça ne pourra apporter que du plus pour régler ce problème d’indexation.
Proposer une page à forte valeur ajoutée
Si on en revient à la base du principe d’un moteur de recherche, c’est de fournir des résultats pertinents et qualitatifs aux utilisateurs suite aux mots-clés renseignés. Google n’a aucun intérêt à proposer une page sans rapport avec la requête de l’utilisateur. Mais il n’en a pas non plus à mettre en avant des articles à la valeur ajoutée très faible, avec des informations trop génériques sur des sujets vus et revus.
Comment faire ?
Ne pas copier-coller bêtement les résultats de ChatGPT.
Plus sérieusement, un bon contenu doit :
- Apporter une forte valeur ajoutée
- Répondre à un besoin utilisateur
- Être agréable à lire
- Ne pas reprendre des techniques SEO pénalisables (exemple : suroptimisation)
Si je mentionne ChatGPT, c’est que beaucoup d’entreprises mais aussi de rédacteurs ont tendance à l’utiliser. Sauf que l’outil reprend très fréquemment des tournures similaires, est très bon pour donner des informations en surface mais très mauvais pour le concret et le détail, et peut paraphraser une simple information en 20 lignes. Dans ses mises à jour récente (notamment Helpful Content), Google essaie d’identifier et de défavoriser les contenus à faible valeur ajoutée, ou copiés-collés de manière bête et méchante depuis des résultats d’intelligence artificielle.
Comme je le dis souvent, « L’IA est un bon serviteur mais un mauvais maître ».
Fil rouge
On a peut-être là la raison de notre problématique d’indexation : prenez l’exemple de la page https://www.lesasfrenchies.com/blog/communication-video/promouvoir-ses-videos/pourquoi-creer-une-chaine-youtube. Maintenant, on va l’analyser à partir des critères que j’énumérais juste avant :
- Par rapport au titre (Publier des vidéos sur Youtube : indispensable pour les entreprises), le contenu s’éparpille trop, voire ne répond pas du tout au titre. On voit comment créer une chaîne, à quoi sert Youtube, comment l’utiliser… Mais pratiquement nullement comment elles peuvent aider une entreprise. De plus les informations mises en avant sont très banales et redondantes.
- Comme je le disais précédemment, ici le besoin utilisateur est nullement répondu.
- Le contenu est très lourd à lire. Rien que dans l’introduction, les 2 premières phrases résument la même idée. Et on retrouve souvent dans l’article les mêmes informations tournées sous une autre forme.
- Sur un contenu d’environ 1000 mots, on retrouve 56 fois le mot Youtube. C’est juste beaucoup trop, le mot est quasiment présent à chaque phrase. Peut-être que l’on faisait du SEO comme ça il y a 10 ans, mais ce n’est plus le cas aujourd’hui, là on est plutôt dans de la suroptimisation.
Tous ces problèmes mis bout à bout peuvent donner la raison de cette non-indexation de ce type de page. Google faisant la chasse au mauvais contenus, et ayant renforcé la prise en compte de la qualité des pages en général d’un site pour définir son positionnement global, ce genre de texte n’a pas sa place sur le web et peut même porter préjudice au SEO des autres pages du site. Personnellement, je recommanderais de supprimer ce genre de page plutôt que de vouloir l’indexer à tout prix.
En complément, proposer peu de pages indexables à faible valeur ajoutée
Comme dit précédemment, des pages à faible valeur ajoutée peuvent avoir un effet négatif sur le SEO du reste du site. Entre gaspillage et réduction de budget crawl, et baisse de positionnement général, il vaut mieux publier moins mais de manière plus qualitative.
Comment faire ?
Vous pouvez faire un crawl avec Screaming Frog, précédemment évoqué, pour voir les pages indexables. Si vous en voyez sans réel intérêt, ou à faible valeur ajoutée, il peut être intéressant de les améliorer ou simplement les rendre non indexables. Dans tous les cas, référez-vous bien aux critères énoncés dans la partie précédente (proposer une page à forte valeur ajoutée) pour être sûr que votre contenu soit réellement pertinent et à même d’aider votre SEO.
Fil rouge
En plus du type de page mentionné dans le h3 précédent, on retrouve un grand nombre de pages crawlées (dont quelques-unes indexées) représentant simplement un titre et une image. Par exemple : https://www.lesasfrenchies.com/file/219.
C’est une de mes hantises SEO. Ces pages n’ont aucune valeur ajoutée, sont simplement du duplicate des images qui sont hébergées sur une autre URL, et viennent parasiter le budget crawl et le SEO du site car elles sont considérées comme pages en HTML. Le pire est qu’elles sont maillées par un lien invisible. Un véritable festival de mauvaises pratiques pour faire du référencement naturel.
Quoi qu’il en soit, il va falloir corriger ça, et pour cela on va :
- Empêcher la création de pages de ce genre quand on upload une photo
- Supprimer ces pages (et indiquer une redirection pour celles indexées)
Autorité de domaine et popularité du site
L’autorité de domaine n’est plus aussi importante qu’avant pour l’indexation et le budget crawl : un blog très bien tenu, à forte valeur ajoutée, peut très bien recevoir un budget crawl capable de couvrir l’exploration de la totalité de ses articles. C’est pour ça que je parle de popularité également.
Mais il ne serait pas judicieux d’enterrer l’autorité de domaine pour autant : c’est aussi un moyen pour Google de différencier un site de confiance d’un site spam parmi d’autres. Surtout si votre Netlinking est bien fait.
Comment faire ?
Il peut y avoir 2 manières de procéder pour améliorer les ressources de son budget crawl :
- Monter un Netlinking de grande qualité, être cité par des sites reconnus dans leur (et votre) thématique, sur des contenus à forte valeur ajoutée
- Proposer vous-même un contenu à forte valeur ajoutée, et limiter au maximum le nombre de pages indexables à des contenus de faible qualité (hors pages mentions légales, politique de confidentialité etc…)
Fil rouge
Si on se concentre sur l’autorité de domaine, celle de Les As Frenchies est correcte pour leur activité (production vidéo sur Lyon), mais reste assez faible dans son ensemble (TF de 7, DA de 15 et 19 domaines référents).
Cependant, le contenu gagnant en importance sur les critères de positionnement Google au détriment du Netlinking (attention les backlinks restent important pour les requêtes concurrentielles), sur ce point Les As Frenchies se démarquent. Ils ont des positions (voire top position) en 1ère page sur des mots-clés assez recherchés dans leur domaine d’activité, et du trafic SEO qui en découle.
Le site proposant moins de 500 pages, leur autorité mêlée à leur popularité actuelle ne m’a pas l’air de bloquer d’une quelconque manière l’exploration ou l’indexation des pages. Mais on voit ça de plus près dans le prochain point, le budget crawl.
Données : Majestic SEO
Optimiser le budget crawl
Déjà cité plus haut, le budget crawl représente les ressources allouées à l’exploration d’un site. Pour l’exemple prenez une cavité et des spéléologues : si vous envoyez un seul travailleur dans une grande caverne souterraine, il n’aura jamais le temps de cartographier le tout en une journée. Là c’est pareil : si vous avez un site conséquent et peu de budget crawl alloué, il se peut que les robots des moteurs de recherche arrêtent leur exploration plus tôt que prévu.
Comment faire ?
On a vu plus haut comment obtenir davantage de ressources pour son budget crawl, maintenant l’idée va être de savoir comment bien optimiser son site pour maximiser son impact :
- Faire un maillage interne pertinent entre les pages, permettre aux robots la découverte de nouvelles pages facilement
- Eviter les redirections 3xx, abolir les 404
- Robots.txt bien configuré
- Sitemap bien renseigné
- Enfin, proposer un site web optimisé en matière de vitesse
Fil rouge
Ici, Screaming Frog détecte de nombreuses URLs http en plus des mêmes en https. Même si la redirection est tout de même bien faite au niveau du site, on peut se demander si les Googlebots n’explorent pas tout de même ces URLs, faisant alors perdre du budget crawl.
Aussi, les images transformées en page sont un véritable fléau, capables de pomper une grosse partie du budget crawl. Mais l’idéal serait pour confirmer ça de faire une analyse de logs, comme on va le voir de suite.
Analyse de logs
On rentre dans du SEO encore plus avancé : l’analyse de logs sert à voir comment les Googlebots et autres bots des moteurs de recherche ont vu et exploré notre site lors de leur dernière venue. Rien que ça. Vous pourrez donc y retrouver par exemple les pages visitées, mais aussi les dates et heures des derniers passages des robots.
Comment faire ?
L’analyse de logs se décompose en 2 étapes distinctes :
- Obtenir les logs en question, notamment via un accès FTP
- Faire analyser ces logs par un outil dédié, tel que le log file Analyser de Screaming Frog ou l’analyseur de logs de Semrush.
Fil rouge
Malheureusement je ne propose pas une analyse de logs pour ce cas concret, tout simplement car il me faudrait des accès avancés pour accéder au FTP. Peut-être que si cet article devient vraiment populaire, je pourrais voir pour le faire…
Grey Hat : Passer par l’API d’indexation Google Cloud
Cette API permet, à l’aide d’un programme tierce, d’envoyer directement des pages à indexer à Google. Ces pages sont ensuite explorées et indexées généralement… dans l’heure qui vient.
Mais alors, pourquoi est-ce du Grey Hat ? Tout simplement car cette API est destinée avant tout à des pages d’offre d’emploi et des évènements diffusés en direct. Donc du contenu ayant un réel besoin d’indexation rapide, voire instantané. Sauf que fonctionnant pour des pages classiques, elle peut très bien être utilisée par des propriétaires de site et de blog. Mais à utiliser à vos risques et périls, Google peut très bien sanctionner sa pratique abusive dans le futur…
Comment faire ?
La 1ère étape est de se créer un compte Google Cloud. Une fois ceci fait, il faut profiter de l’essai gratuit avec l’offre de 300$ offerts (ça va, vous allez tenir un petit moment avec). Ensuite, activez l’API « Web Search Indexing API ».
La 2e étape, si vous n’êtes pas familier avec les API, est d’utiliser une solution tierce telle que Rank Math (avec leur excellent tuto), ou Foudroyer que je trouve très bien conçu et intuitif. Vous n’aurez qu’à soumettre vos pages que vous souhaitez indexer avec votre clé d’API, et ces outils feront le travail pour vous.
Fil rouge
Les As Frenchies ont utilisé Foudroyer pour leur indexation depuis la sortie du post, et l’essai a été concluant : la majorité des pages non-indexées se sont retrouvées sur Google (très) rapidement. Pas de conséquence négative à priori.
Conclusion du fil rouge : ce qu’il manque pour assurer l’indexation
Le site de Les As Frenchies a clairement des lacunes dans les 3 piliers du SEO (bien que dans le cas du Netlinking, ce ne soit pas dérangeant par rapport aux concurrents directs qui ont un profil de liens similaire). Mais tout n’est pas à jeter : il est facilement accessible, ses pages bien maillées, et dans le lot il y a d’excellents contenus.
La conclusion surprenante de ce fil rouge, c’est tout simplement que parfois certaines pages ne sont pas indexées pour une bonne raison, et que l’on devrait revoir leur contenu plutôt que de forcer une indexation à tout prix. Ici, les pages toujours non-indexées proposent du contenu de très faible qualité, à même de pénaliser le positionnement du site entier.
Ceci dit, avec ce que l’on a vu il y a matière à amélioration et optimisation du budget crawl, notamment sur le plan technique, ce qui faciliterait l’indexation des nouveaux contenus à forte valeur ajoutée proposés par Les As Frenchies.
En résumé
On ne fait plus du SEO comme on en faisait il y a 15 ans : certains critères de positionnement ont vu leur poids changer, d’autres se sont rajoutés, certains sont au bord de la disparition en termes d’importance… Et forcément, le procédé d’indexation n’est lui aussi plus le même.
Pour les connaisseurs, vous remarquerez que j’ai omis les services d’indexation payants. L’idée a été de présenter dans l’article les manières naturelles (ou presque) d’indexer ses pages.
Enfin, si l’article a pu vous apporter de nouvelles connaissances, n’hésitez pas à le communiquer autour de vous, et si vous avez une question, je serai ravi de vous éclairer dans la section commentaires.