Indexation & crawlabilité

Une page qui n'est pas indexée n'existe pas pour Google. Avant de travailler le contenu ou les backlinks, il faut s'assurer que les moteurs de recherche peuvent accéder à vos pages et les inclure dans leur index.

Indexation et crawlabilité par les moteurs de recherche

Comprendre le processus d'indexation

L'indexation se déroule en plusieurs étapes. D'abord, Googlebot découvre l'URL (via un lien, le sitemap, ou une soumission manuelle). Ensuite, il crawle la page, c'est-à-dire qu'il télécharge son contenu. Enfin, il décide de l'indexer ou non, selon la qualité perçue et l'absence de blocages techniques.

Chaque étape peut échouer. Une URL peut ne jamais être découverte si elle n'est liée nulle part. Le crawl peut être bloqué par le robots.txt ou un problème serveur. L'indexation peut être refusée si la page est jugée de faible valeur ou si une balise noindex est présente.

Diagnostiquer les problèmes d'indexation

Google Search Console

Le rapport "Couverture de l'index" (ou "Pages" dans la nouvelle interface) liste les URL connues de Google et leur statut. Les catégories principales : indexées, exclues, erreurs. Chaque exclusion a une raison précise qu'il faut analyser.

Les raisons d'exclusion les plus fréquentes :

Bloquée par robots.txt : le fichier interdit l'accès
Noindex détecté : la balise meta ou l'en-tête HTTP bloque l'indexation
Soft 404 : page qui renvoie un code 200 mais semble vide
Duplicate sans canonical : contenu dupliqué non géré
Crawlée, non indexée : Google a vu la page mais ne l'a pas jugée utile

Inspection d'URL

L'outil d'inspection d'URL dans Search Console permet de vérifier le statut d'une page spécifique. Il montre si la page est indexée, quand elle a été crawlée pour la dernière fois, et s'il y a des problèmes détectés.

Le piège du "Crawlée, non indexée"

Ce statut signifie que Google a vu votre page mais a choisi de ne pas l'indexer. Les causes possibles : contenu trop mince, duplication avec d'autres pages, qualité insuffisante. La solution passe souvent par l'enrichissement du contenu plutôt que par des corrections techniques.

Budget crawl : un enjeu pour les gros sites

Google n'a pas de ressources infinies. Pour chaque site, il alloue un "budget crawl" — un nombre de pages qu'il accepte de crawler sur une période donnée. Pour un petit site de 50 pages, ce n'est jamais un problème. Pour un site e-commerce de 100 000 produits, ça devient critique.

Gaspiller le budget crawl sur des pages inutiles (filtres à facettes, pages de pagination, versions imprimables) empêche Google de crawler les pages importantes. L'optimisation du budget crawl passe par le blocage intelligent des URL sans valeur SEO.

Problèmes techniques courants

Robots.txt mal configuré

Un robots.txt trop restrictif peut bloquer des sections entières du site. À l'inverse, un robots.txt trop permissif laisse crawler des pages qui ne devraient pas l'être. La syntaxe est simple mais les erreurs sont fréquentes.

Rendu JavaScript

Les sites qui génèrent leur contenu en JavaScript posent des défis particuliers. Google sait exécuter JavaScript, mais avec un délai. Si le contenu critique n'apparaît qu'après exécution de scripts complexes, l'indexation peut être incomplète ou retardée.

Temps de réponse serveur

Un serveur lent décourage le crawl. Si chaque page met 3 secondes à répondre, Google réduira la fréquence de ses visites. L'optimisation des Core Web Vitals bénéficie aussi à la crawlabilité.

Cas concret : site institutionnel à La Réunion

Un organisme public réunionnais avait refait son site web. Trois mois après le lancement, la moitié des pages n'étaient toujours pas indexées. L'audit technique a révélé plusieurs problèmes cumulés.

Le robots.txt bloquait par erreur le répertoire /documents/. Le sitemap XML contenait des URL en HTTP alors que le site était en HTTPS. Plusieurs pages importantes avaient une balise noindex héritée de l'environnement de développement. Après corrections, l'indexation complète a pris deux semaines.

Sitemap XML : guide pour les robots

Le sitemap XML liste les URL que vous souhaitez voir indexées. Ce n'est pas une garantie d'indexation, mais un signal fort envoyé aux moteurs. Un sitemap bien maintenu facilite la découverte des nouvelles pages et la ré-exploration des pages modifiées.

Le sitemap doit être cohérent avec le robots.txt et les balises canonical. Inclure dans le sitemap des URL bloquées ou redirigées envoie des signaux contradictoires.

Suivi dans la durée

L'indexation n'est pas un projet ponctuel. Chaque nouvelle page, chaque modification de structure peut créer de nouveaux problèmes. Un suivi régulier du rapport de couverture permet de détecter les régressions avant qu'elles n'impactent le trafic.

Diagnostiquons votre indexation

Un audit rapide permet d'identifier les blocages et de prioriser les corrections.

Contacter via WhatsApp