Maximisez votre potentiel en ligne !

Audit d'indexation e-commerce à grande échelle

Chaque page compte. Aucune ne doit se perdre.

Les études Botify sur 6,2 milliards de requêtes Googlebot confirment ce que j'observe en audit : Google ne crawle en moyenne que 50% des pages des sites enterprise. Et parmi ces pages crawlées, une fraction seulement génère du trafic. Sur un site e-commerce non optimisé, 30 à 50% du crawl Googlebot part dans des URLs sans valeur business. Pendant ce temps, vos best-sellers et nouveautés restent sous-crawlés. Avant de plonger dans l'indexation, cadrez le périmètre complet avec un audit SEO e-commerce structuré en trois niveaux.

Pourquoi l'indexation mérite votre attention stratégique

Google peut connaître une URL (découverte), l'avoir visitée (crawlée), et pourtant décider de ne pas l'inclure dans son index (non indexée). Sur un site non optimisé, le bucket « Crawled — Currently Not Indexed » dans GSC est souvent peuplé de centaines de milliers d'URLs que Google a jugées indignes de son index. Le seuil critique : au-delà de 20-30% de CNI sur vos fiches produits, vous avez un problème systémique de qualité perçue, pas un problème de crawl budget.

La formule d'explosion combinatoire explique pourquoi l'e-commerce est particulièrement exposé. Avec 1 000 produits, 5 filtres de 10 valeurs chacun, et une pagination, le nombre d'URLs accessibles peut dépasser les millions. Ce n'est pas un cas d'école : c'est la norme sur les sites mal configurés. Gary Illyes l'a confirmé : la navigation à facettes est « de loin la source la plus commune de problèmes de sur-crawl signalés par les propriétaires de sites ».

Ce que Google fait vraiment avec votre catalogue

« Nos algorithmes de qualité regardent le site web dans son ensemble, donc ils prennent en compte tout ce qui est indexé. »

John Mueller, Google

Autrement dit, chaque page médiocre indexée tire vers le bas l'évaluation globale de votre domaine. Ce n'est pas une pénalité ciblée : c'est une dégradation diffuse de la perception que Google a de la qualité de votre site. Le comportement de Google est logique : face à un site qui lui présente des millions de pages, il trie. Il investit ses ressources sur ce qu'il perçoit comme utile. Si votre signal est bruité par des milliers de pages vides ou dupliquées, le message reçu est : « ce site ne mérite pas beaucoup d'attention ».

Le changement de paradigme

J'ai longtemps cru, comme beaucoup, que « plus de pages indexées = plus de chances de ranker ». Cette logique est obsolète. Skroutz (marketplace grec, 30 millions de sessions/mois) a amélioré ses positions moyennes en réduisant son index de 25 millions à 7 millions d'URLs (-72%), même catalogue, meilleure visibilité. REI a compressé son catalogue indexable de 34 millions à 300 000 pages pour doubler son efficacité de crawl.

La cible n'est pas 100% d'indexation. C'est 100% d'indexation utile.

Comment j'ai structuré ce hub

J'ai organisé les articles de ce pilier en trois parcours logiques, selon là où vous en êtes dans votre démarche.

Index bloat en e-commerce : Avant de désindexer quoi que ce soit, il faut nommer précisément le problème. Cet article couvre les différentes formes d'index bloat et les méthodes pour quantifier l'étendue réelle du dégât par segment d'URL.

Cleanup d'indexation en e-commerce : Une fois le diagnostic posé, mettre en place un cleanup d'indexation progressif selon une séquence en 4 phases évite les effondrements non voulus. L'ordre des opérations est critique : renforcer avant de retirer, consolider avant de supprimer.

Diagnostiquer l'indexation sans logs serveur : Si vous n'avez pas accès aux logs, des méthodes alternatives permettent de diagnostiquer l'indexation sans accès aux logs à partir de GSC Crawl Stats, Screaming Frog et de l'API URL Inspection (limitée à 2 000 requêtes/jour, à prioriser sur les URLs stratégiques).

Pages à ne jamais indexer en e-commerce : La typologie exhaustive des URLs à exclure, avec l'arbre décisionnel technique et la checklist des SERPs non gagnables (AI Overviews, marketplaces dominants, intent purement informationnel).

Facettes e-commerce et SEO : Le framework de décision pour distinguer les facettes à indexer de celles à bloquer. Les facettes représentent à la fois l'opportunité long-tail la plus sous-exploitée et le piège de crawl le plus dévastateur des catalogues e-commerce.

Crawl scheduling en e-commerce : Les sitemaps segmentés et le maillage interne permettent de piloter le comportement de crawl de Googlebot vers les pages à fort potentiel. Cet article détaille le scoring composite d'URLs (trafic × revenue × fraîcheur × liens × stock) et le playbook opérationnel « réduire, orienter, stabiliser ».

Profondeur de crawl et règle des 4 clics : Comment la profondeur de l'architecture impacte directement la fréquence de recrawl, avec les seuils mesurés par corrélation logs/profondeur et les correctifs architecturaux actionnables.

Mon framework d'analyse en 6 niveaux

L'erreur classique est de regarder les métriques d'indexation comme un seul chiffre agrégé. La réalité est un entonnoir : chaque niveau filtre les URLs du niveau précédent, et chaque filtre a ses propres causes et ses propres correctifs.

Ce cadre change fondamentalement la façon de poser le diagnostic. Quand une URL est au niveau 2 (crawlée) mais pas au niveau 3 (indexée), la cause est qualitative : Google a vu la page et décidé qu'elle ne méritait pas l'index. Quand une URL est au niveau 3 mais pas au niveau 4, le problème est concurrentiel : la page est indexée mais ne se positionne pas. Les traiter dans le mauvais ordre, optimiser le contenu avant d'avoir résolu le crawl waste, est une perte de temps garantie.

Matrice présence × indexation × performance × utilité

Pour chaque segment d'URL, j'établis systématiquement cette matrice. Les chiffres ci-dessous sont représentatifs d'un site e-commerce de taille moyenne non optimisé :

SegmentTotal URLsCrawlées/moisIndexéesAvec impressionsAvec clicsAvec CA
PDP en stock8 0006 000 (75%)5 500 (69%)4 200 (53%)2 800 (35%)1 400 (18%)
Catégories L1-L210095 (95%)90 (90%)85 (85%)70 (70%)50 (50%)
Facettes indexables500350 (70%)200 (40%)120 (24%)60 (12%)20 (4%)
Facettes non-indexables50 00015 000 (30%)0000

La dernière ligne est la plus parlante : 15 000 crawls Googlebot par mois sur des URLs qui ne génèrent strictement rien. Ni indexation, ni impression, ni clic, ni CA. C'est le gaspillage à corriger en priorité absolue, avant toute optimisation contenu.

Corrélation logs/GSC : les deux requêtes critiques

L'API URL Inspection de GSC permet de récupérer par URL : lastCrawlTime, googleCanonical vs userCanonical, pageFetchState et robotsTxtState. Croisées avec les logs serveur, deux requêtes SQL révèlent les anomalies invisibles dans chaque source isolée.

URLs sur-crawlées mais non indexées (gaspillage pur) :

SELECT url, log_crawl_count, gsc_status WHERE log_crawl_count > 10 AND gsc_status = 'Not Indexed' ORDER BY log_crawl_count DESC

URLs à fort trafic sous-crawlées (opportunité manquée) :

SELECT url, gsc_clicks, log_last_crawl WHERE gsc_clicks > 100 AND log_days_since_crawl > 14 ORDER BY gsc_clicks DESC

La première liste vous dit où vous gaspillez. La seconde vous dit ce que vous perdez.

Les 15 KPIs senior pour piloter votre indexation

#CatégorieKPIDéfinitionCibleAlerte
Crawl (1–3)
1CrawlRatio crawl utileCrawls sur pages stratégiques / Total crawls Googlebot60–80 %< 40 %
2CrawlFréquence recrawl pages businessIntervalle de recrawl sur Top 100 best-sellers< 7–10 jours> 30 jours
3CrawlProfondeur crawl réelle% PDPs à depth ≤ 3 clics depuis la homepage> 80 %< 50 %
Indexation (4–6)
4IndexationTaux CNI par typeCrawled Not Indexed sur PDPs< 10 %> 20–30 %
5IndexationCanonical respect rateCanonicals acceptés par Google / Déclarés> 90 %< 85 %
6IndexationSoft-404 pages stratégiquesNombre de soft-404 sur PDPs et catégories clés0> 0
Directives robots / noindex (7–8)
7RobotsURLs bloquées mais crawlées% robots.txt Disallow visités quand même< 1 %> 5 %
8RobotsNoindex effectif vs ignoréTaux de respect du noindex par Google100 %< 95 %
Sitemap (9–10)
9SitemapTaux indexation depuis sitemapIndexed from sitemap / Total in sitemap> 70 %< 50 %
10SitemapFraîcheur sitemap vs crawlÉcart entre lastmod et dernier crawl réel< 7 jours> 30 jours
Rendu JS & mobile (11–12)
11JS / Mobile% contenu JS-only(Word count rendu − HTML brut) / Word count rendu × 100< 10 %> 30 %
12JS / MobileParité mobile / desktopDifférences de contenu entre versionsParitéÉcart notable
Duplication & structure (13–14)
13DuplicationSimilarité inter-PDP% contenu similaire entre fiches produits< 20 %> 30 %
14DuplicationParamètres actifs indexésNombre d'URLs avec paramètres dans l'index0> 100 URLs
Synthèse (15)
15SynthèseIndexation utileURLs indexées générant trafic ou CA / Total indexées70–80 %< 50 %

Les erreurs que je vois le plus souvent

Le raisonnement : « On laisse indexé, ça ne coûte rien, et si ça ramène du trafic tant mieux. »

Chaque page indexée compte dans l'évaluation qualité. Kevin Indig observe une relation inverse entre pages indexées et trafic organique sur de nombreux sites. Quand la qualité moyenne chute, Google réduit le trafic global alloué au domaine. L'indexation passive est un passif, pas un actif.

Je vois régulièrement des pages qui combinent les deux directives. John Mueller l'a clarifié en 2024 : « Just pick one. SEO is often about making your preference very clear and not about maybes. » Canonical pour consolider des signaux vers une URL préférée, noindex pour garantir la disparition totale des SERPs. Jamais les deux sur la même page.

La séquence compte. Si vous bloquez le crawl d'une page avant que Google ait pu lire sa directive noindex, la page reste indexée avec un résultat « No information available ». La séquence correcte : noindex → attendre la désindexation confirmée → puis robots.txt Disallow.

Quatre éléments doivent raconter la même histoire : le canonical HTML déclaré, le canonical choisi par Google (GSC URL Inspection), les liens internes, et les entrées sitemap. Dès qu'un seul élément diverge, Google reçoit des signaux contradictoires et peut choisir d'ignorer votre préférence. Glenn Gabe documente un cas où Google indexait massivement les pages canonicalisées parce que les pages source et cible n'avaient pas de contenu équivalent — « Many lower-quality pages being canonicalized were actually being indexed. »

Amazon indexe ses facettes couleur et taille. Ce qui fonctionne pour un domaine DR 95 avec des milliards de signaux ne fonctionne pas pour un site DR 35. La question n'est pas « est-ce que c'est techniquement indexable ? » mais « est-ce que mon site a l'autorité pour que cette page se positionne face aux concurrents qui dominent déjà cette SERP ? »

Ce que disent les experts et où ils divergent

  • Sur la quantité vs qualité d'indexation : Le consensus est solide depuis les core updates 2022-2024. Glenn Gabe (GSQi) : « La bonne indexation est plus importante que la haute indexation. » Selon Lily Ray (Amsive), au-delà de 40-80% de pages thin dans l'index, l'évaluation globale du site en pâtit systématiquement. Kevin Indig abonde dans le même sens : retirer des pages de l'index est selon lui l'un des leviers organiques les plus rapides à activer. Ces trois positions convergent.
  • Sur les logs serveur : essentiels ou surdimensionnés : Botify et Glenn Gabe considèrent les logs non négociables pour les sites enterprise. Kevin Indig estime que « l'effort et le coût excèdent souvent les bénéfices » et recommande GSC Crawl Stats pour la plupart des cas. Ma position : les logs sont indispensables pour les sites de plus de 50 000 URLs avec navigation à facettes. Pour les autres, GSC couplé à Screaming Frog couvre l'essentiel. La limite de 2 000 requêtes/jour de l'API URL Inspection oblige à prioriser les URLs stratégiques.
  • Sur robots.txt vs noindex pour les crawl traps : Google (Gary Illyes) recommande robots.txt : « Don't use noindex, as Google will still request, wasting crawling time. » Les praticiens préfèrent parfois noindex parce qu'il garantit la non-indexation même si des backlinks externes pointent vers ces pages.

Là où les experts divergent vraiment

Deux fractures claires ressortent de ces positions.

  • Logs vs GSC : C'est le désaccord le plus opérationnel. Botify et Glenn Gabe considèrent les logs indispensables dès qu'on dépasse 50 000 URLs. Kevin Indig conteste la rentabilité de l'effort pour la majorité des sites. La frontière est moins technique qu'elle n'y paraît : c'est une question de rapport coût/signal selon la taille du catalogue et la complexité de la navigation.
  • robots.txt vs noindex pour les traps : Gary Illyes recommande robots.txt pour préserver le crawl budget en amont. Les praticiens terrain préfèrent parfois noindex parce qu'il garantit la non-indexation même en présence de backlinks externes. Ma règle : robots.txt pour les volumes massifs (facettes combinatoires, recherche interne), noindex pour les cas individuels où les liens sortants de la page ont de la valeur.

Par où commencer selon votre situation

Vous n'avez jamais audité votre indexation

  1. Calculez votre taux d'indexation utile (KPI 15) dans GSC : URLs indexées avec impressions / Total indexées. Sous 50%, vous avez un problème prioritaire.
  2. Identifiez le volume dans le bucket « Crawled — Currently Not Indexed » segmenté par type d'URL. Au-delà de 20% sur vos PDPs, le problème est qualité contenu, pas crawl.
  3. Repérez vos 3 plus gros patterns d'URLs dans GSC Coverage. Les facettes et paramètres de tri seront très probablement présents.

Vous avez identifié un problème d'index bloat

Commencez par qualifier l'ampleur du bloat par segment d'URL avant d'agir, facettes explosives, pagination profonde et variantes dupliquées n'appellent pas les mêmes correctifs. Approche agressive sur les clusters clairement problématiques (facettes multi-attributs, pagination > page 20, recherche interne). Approche progressive sur les zones ambiguës, PDPs faible performance, catégories borderline. Pour l'exécution, la séquence de cleanup en 4 phases évite les effondrements non voulus : renforcer avant de retirer, consolider avant de supprimer. Selon les données Botify, la réduction de 50% des URLs connues peut multiplier la fréquence de crawl par 19.

Vous êtes en phase d'optimisation continue

Implémentez le monitoring des 15 KPIs dans Looker Studio (GSC API + données logs ou GSC Crawl Stats). Seuils à surveiller en hebdomadaire : KPI 1 (ratio crawl utile, alerte <40%), KPI 4 (taux CNI PDPs, alerte >15%), KPI 6 (soft-404, alerte >0 sur stratégiques). Seuils mensuels : KPI 5 (canonical respect, alerte <85%), KPI 9 (taux sitemap indexé, alerte <50%), KPI 15 (indexation utile, alerte <50%). Pour affiner l'allocation du crawl budget vers vos pages prioritaires, la stratégie de crawl scheduling amplifie les gains une fois la base assainie.

Le mot de la fin

L'audit d'indexation e-commerce à grande échelle repose sur un principe fondamental : toute conclusion doit croiser au minimum deux sources de données. Un taux CNI élevé constaté dans GSC sans corrélation avec les logs ou un crawl interne ne vous dit pas pourquoi Google rejette les pages, ça vous dit juste qu'il le fait.

Les trois principes directeurs que j'applique systématiquement :

Distinguer symptômes, causes et effets. Un taux CNI élevé (symptôme) peut avoir pour cause un contenu thin, un maillage pauvre, ou un problème de qualité domaine. L'effet secondaire sera une dilution du ranking. Traiter le symptôme sans identifier la cause revient à changer les pneus d'une voiture sans moteur.

Prioriser par ROI d'indexation. Indexer uniquement les pages avec justification business. La cible 70-80% d'indexation utile implique d'accepter que 20-30% des URLs ne méritent pas d'être indexées et de l'assumer clairement dans votre politique éditoriale.

Commencer par les actions réversibles. Noindex plutôt que 410, canonical plutôt que suppression, robots.txt plutôt que refonte architecturale. Les quick wins mesurables permettent de valider l'approche avant les chantiers structurels et, surtout, de les défendre en interne avec des données.

L'indexation n'est pas un sujet glamour. C'est précisément pour ça qu'elle représente un avantage compétitif : la plupart des e-commerces ne font pas ce travail correctement. Ceux qui le font avec rigueur récoltent des gains durables, pas en ajoutant des pages, mais en sélectionnant lesquelles méritent d'exister dans l'index.

Sources et références

  1. 57 SEO Insights From Google's John Mueller — Search Engine Journal
  2. Crawl Budget Optimization — From 25M to 7M URLs — Skroutz Engineering, 2019
  3. Crawl Budget Management For Large Sites — Google Search Central
  4. 75% of crawling issues come from two common URL mistakes — Search Engine Land, 2024
  5. How Does Google Crawl the Web? — Étude sur 6,2 milliards de requêtes Googlebot — Botify
  6. Google's Martin Splitt On Why Pages Aren't Indexed — Search Engine Journal
  7. Sitemaps: lastmod and ping — Gary Illyes, Google Search Central, 2023
  8. Revisiting The SEO Importance of Quality Indexation For Large-Scale Sites — Glenn Gabe, GSQi, 2020
Rubriques soeurs
SEO E-Commerce › Pages catégories e-commerce et SEO : ce que Google classe vraiment

Pages de catégories

85,6% des requêtes e-commerce déclenchent des Product Listings et les pages catégories génèrent 413%…