
Cleanup d'indexation e-commerce : purger sans casser le trafic
Réduire son index de moitié pour doubler son trafic organique en six semaines : c'est le résultat do…

Les études Botify sur 6,2 milliards de requêtes Googlebot confirment ce que j'observe en audit : Google ne crawle en moyenne que 50% des pages des sites enterprise. Et parmi ces pages crawlées, une fraction seulement génère du trafic. Sur un site e-commerce non optimisé, 30 à 50% du crawl Googlebot part dans des URLs sans valeur business. Pendant ce temps, vos best-sellers et nouveautés restent sous-crawlés. Avant de plonger dans l'indexation, cadrez le périmètre complet avec un audit SEO e-commerce structuré en trois niveaux.
Google peut connaître une URL (découverte), l'avoir visitée (crawlée), et pourtant décider de ne pas l'inclure dans son index (non indexée). Sur un site non optimisé, le bucket « Crawled — Currently Not Indexed » dans GSC est souvent peuplé de centaines de milliers d'URLs que Google a jugées indignes de son index. Le seuil critique : au-delà de 20-30% de CNI sur vos fiches produits, vous avez un problème systémique de qualité perçue, pas un problème de crawl budget.
La formule d'explosion combinatoire explique pourquoi l'e-commerce est particulièrement exposé. Avec 1 000 produits, 5 filtres de 10 valeurs chacun, et une pagination, le nombre d'URLs accessibles peut dépasser les millions. Ce n'est pas un cas d'école : c'est la norme sur les sites mal configurés. Gary Illyes l'a confirmé : la navigation à facettes est « de loin la source la plus commune de problèmes de sur-crawl signalés par les propriétaires de sites ».
« Nos algorithmes de qualité regardent le site web dans son ensemble, donc ils prennent en compte tout ce qui est indexé. »
John Mueller, Google
Autrement dit, chaque page médiocre indexée tire vers le bas l'évaluation globale de votre domaine. Ce n'est pas une pénalité ciblée : c'est une dégradation diffuse de la perception que Google a de la qualité de votre site. Le comportement de Google est logique : face à un site qui lui présente des millions de pages, il trie. Il investit ses ressources sur ce qu'il perçoit comme utile. Si votre signal est bruité par des milliers de pages vides ou dupliquées, le message reçu est : « ce site ne mérite pas beaucoup d'attention ».
J'ai longtemps cru, comme beaucoup, que « plus de pages indexées = plus de chances de ranker ». Cette logique est obsolète. Skroutz (marketplace grec, 30 millions de sessions/mois) a amélioré ses positions moyennes en réduisant son index de 25 millions à 7 millions d'URLs (-72%), même catalogue, meilleure visibilité. REI a compressé son catalogue indexable de 34 millions à 300 000 pages pour doubler son efficacité de crawl.
La cible n'est pas 100% d'indexation. C'est 100% d'indexation utile.
J'ai organisé les articles de ce pilier en trois parcours logiques, selon là où vous en êtes dans votre démarche.
Index bloat en e-commerce : Avant de désindexer quoi que ce soit, il faut nommer précisément le problème. Cet article couvre les différentes formes d'index bloat et les méthodes pour quantifier l'étendue réelle du dégât par segment d'URL.
Cleanup d'indexation en e-commerce : Une fois le diagnostic posé, mettre en place un cleanup d'indexation progressif selon une séquence en 4 phases évite les effondrements non voulus. L'ordre des opérations est critique : renforcer avant de retirer, consolider avant de supprimer.
Diagnostiquer l'indexation sans logs serveur : Si vous n'avez pas accès aux logs, des méthodes alternatives permettent de diagnostiquer l'indexation sans accès aux logs à partir de GSC Crawl Stats, Screaming Frog et de l'API URL Inspection (limitée à 2 000 requêtes/jour, à prioriser sur les URLs stratégiques).
Pages à ne jamais indexer en e-commerce : La typologie exhaustive des URLs à exclure, avec l'arbre décisionnel technique et la checklist des SERPs non gagnables (AI Overviews, marketplaces dominants, intent purement informationnel).
Facettes e-commerce et SEO : Le framework de décision pour distinguer les facettes à indexer de celles à bloquer. Les facettes représentent à la fois l'opportunité long-tail la plus sous-exploitée et le piège de crawl le plus dévastateur des catalogues e-commerce.
Crawl scheduling en e-commerce : Les sitemaps segmentés et le maillage interne permettent de piloter le comportement de crawl de Googlebot vers les pages à fort potentiel. Cet article détaille le scoring composite d'URLs (trafic × revenue × fraîcheur × liens × stock) et le playbook opérationnel « réduire, orienter, stabiliser ».
Profondeur de crawl et règle des 4 clics : Comment la profondeur de l'architecture impacte directement la fréquence de recrawl, avec les seuils mesurés par corrélation logs/profondeur et les correctifs architecturaux actionnables.
L'erreur classique est de regarder les métriques d'indexation comme un seul chiffre agrégé. La réalité est un entonnoir : chaque niveau filtre les URLs du niveau précédent, et chaque filtre a ses propres causes et ses propres correctifs.

Ce cadre change fondamentalement la façon de poser le diagnostic. Quand une URL est au niveau 2 (crawlée) mais pas au niveau 3 (indexée), la cause est qualitative : Google a vu la page et décidé qu'elle ne méritait pas l'index. Quand une URL est au niveau 3 mais pas au niveau 4, le problème est concurrentiel : la page est indexée mais ne se positionne pas. Les traiter dans le mauvais ordre, optimiser le contenu avant d'avoir résolu le crawl waste, est une perte de temps garantie.
Pour chaque segment d'URL, j'établis systématiquement cette matrice. Les chiffres ci-dessous sont représentatifs d'un site e-commerce de taille moyenne non optimisé :
| Segment | Total URLs | Crawlées/mois | Indexées | Avec impressions | Avec clics | Avec CA |
|---|---|---|---|---|---|---|
| PDP en stock | 8 000 | 6 000 (75%) | 5 500 (69%) | 4 200 (53%) | 2 800 (35%) | 1 400 (18%) |
| Catégories L1-L2 | 100 | 95 (95%) | 90 (90%) | 85 (85%) | 70 (70%) | 50 (50%) |
| Facettes indexables | 500 | 350 (70%) | 200 (40%) | 120 (24%) | 60 (12%) | 20 (4%) |
| Facettes non-indexables | 50 000 | 15 000 (30%) | 0 | 0 | 0 | 0 |
La dernière ligne est la plus parlante : 15 000 crawls Googlebot par mois sur des URLs qui ne génèrent strictement rien. Ni indexation, ni impression, ni clic, ni CA. C'est le gaspillage à corriger en priorité absolue, avant toute optimisation contenu.
L'API URL Inspection de GSC permet de récupérer par URL : lastCrawlTime, googleCanonical vs userCanonical, pageFetchState et robotsTxtState. Croisées avec les logs serveur, deux requêtes SQL révèlent les anomalies invisibles dans chaque source isolée.
URLs sur-crawlées mais non indexées (gaspillage pur) :
SELECT url, log_crawl_count, gsc_status WHERE log_crawl_count > 10 AND gsc_status = 'Not Indexed' ORDER BY log_crawl_count DESC
URLs à fort trafic sous-crawlées (opportunité manquée) :
SELECT url, gsc_clicks, log_last_crawl WHERE gsc_clicks > 100 AND log_days_since_crawl > 14 ORDER BY gsc_clicks DESC
La première liste vous dit où vous gaspillez. La seconde vous dit ce que vous perdez.
| # | Catégorie | KPI | Définition | Cible | Alerte |
|---|---|---|---|---|---|
| Crawl (1–3) | |||||
| 1 | Crawl | Ratio crawl utile | Crawls sur pages stratégiques / Total crawls Googlebot | 60–80 % | < 40 % |
| 2 | Crawl | Fréquence recrawl pages business | Intervalle de recrawl sur Top 100 best-sellers | < 7–10 jours | > 30 jours |
| 3 | Crawl | Profondeur crawl réelle | % PDPs à depth ≤ 3 clics depuis la homepage | > 80 % | < 50 % |
| Indexation (4–6) | |||||
| 4 | Indexation | Taux CNI par type | Crawled Not Indexed sur PDPs | < 10 % | > 20–30 % |
| 5 | Indexation | Canonical respect rate | Canonicals acceptés par Google / Déclarés | > 90 % | < 85 % |
| 6 | Indexation | Soft-404 pages stratégiques | Nombre de soft-404 sur PDPs et catégories clés | 0 | > 0 |
| Directives robots / noindex (7–8) | |||||
| 7 | Robots | URLs bloquées mais crawlées | % robots.txt Disallow visités quand même | < 1 % | > 5 % |
| 8 | Robots | Noindex effectif vs ignoré | Taux de respect du noindex par Google | 100 % | < 95 % |
| Sitemap (9–10) | |||||
| 9 | Sitemap | Taux indexation depuis sitemap | Indexed from sitemap / Total in sitemap | > 70 % | < 50 % |
| 10 | Sitemap | Fraîcheur sitemap vs crawl | Écart entre lastmod et dernier crawl réel | < 7 jours | > 30 jours |
| Rendu JS & mobile (11–12) | |||||
| 11 | JS / Mobile | % contenu JS-only | (Word count rendu − HTML brut) / Word count rendu × 100 | < 10 % | > 30 % |
| 12 | JS / Mobile | Parité mobile / desktop | Différences de contenu entre versions | Parité | Écart notable |
| Duplication & structure (13–14) | |||||
| 13 | Duplication | Similarité inter-PDP | % contenu similaire entre fiches produits | < 20 % | > 30 % |
| 14 | Duplication | Paramètres actifs indexés | Nombre d'URLs avec paramètres dans l'index | 0 | > 100 URLs |
| Synthèse (15) | |||||
| 15 | Synthèse | Indexation utile | URLs indexées générant trafic ou CA / Total indexées | 70–80 % | < 50 % |
Le raisonnement : « On laisse indexé, ça ne coûte rien, et si ça ramène du trafic tant mieux. »
Chaque page indexée compte dans l'évaluation qualité. Kevin Indig observe une relation inverse entre pages indexées et trafic organique sur de nombreux sites. Quand la qualité moyenne chute, Google réduit le trafic global alloué au domaine. L'indexation passive est un passif, pas un actif.
Je vois régulièrement des pages qui combinent les deux directives. John Mueller l'a clarifié en 2024 : « Just pick one. SEO is often about making your preference very clear and not about maybes. » Canonical pour consolider des signaux vers une URL préférée, noindex pour garantir la disparition totale des SERPs. Jamais les deux sur la même page.
La séquence compte. Si vous bloquez le crawl d'une page avant que Google ait pu lire sa directive noindex, la page reste indexée avec un résultat « No information available ». La séquence correcte : noindex → attendre la désindexation confirmée → puis robots.txt Disallow.
Quatre éléments doivent raconter la même histoire : le canonical HTML déclaré, le canonical choisi par Google (GSC URL Inspection), les liens internes, et les entrées sitemap. Dès qu'un seul élément diverge, Google reçoit des signaux contradictoires et peut choisir d'ignorer votre préférence. Glenn Gabe documente un cas où Google indexait massivement les pages canonicalisées parce que les pages source et cible n'avaient pas de contenu équivalent — « Many lower-quality pages being canonicalized were actually being indexed. »
Amazon indexe ses facettes couleur et taille. Ce qui fonctionne pour un domaine DR 95 avec des milliards de signaux ne fonctionne pas pour un site DR 35. La question n'est pas « est-ce que c'est techniquement indexable ? » mais « est-ce que mon site a l'autorité pour que cette page se positionne face aux concurrents qui dominent déjà cette SERP ? »
Deux fractures claires ressortent de ces positions.
Commencez par qualifier l'ampleur du bloat par segment d'URL avant d'agir, facettes explosives, pagination profonde et variantes dupliquées n'appellent pas les mêmes correctifs. Approche agressive sur les clusters clairement problématiques (facettes multi-attributs, pagination > page 20, recherche interne). Approche progressive sur les zones ambiguës, PDPs faible performance, catégories borderline. Pour l'exécution, la séquence de cleanup en 4 phases évite les effondrements non voulus : renforcer avant de retirer, consolider avant de supprimer. Selon les données Botify, la réduction de 50% des URLs connues peut multiplier la fréquence de crawl par 19.
Implémentez le monitoring des 15 KPIs dans Looker Studio (GSC API + données logs ou GSC Crawl Stats). Seuils à surveiller en hebdomadaire : KPI 1 (ratio crawl utile, alerte <40%), KPI 4 (taux CNI PDPs, alerte >15%), KPI 6 (soft-404, alerte >0 sur stratégiques). Seuils mensuels : KPI 5 (canonical respect, alerte <85%), KPI 9 (taux sitemap indexé, alerte <50%), KPI 15 (indexation utile, alerte <50%). Pour affiner l'allocation du crawl budget vers vos pages prioritaires, la stratégie de crawl scheduling amplifie les gains une fois la base assainie.
L'audit d'indexation e-commerce à grande échelle repose sur un principe fondamental : toute conclusion doit croiser au minimum deux sources de données. Un taux CNI élevé constaté dans GSC sans corrélation avec les logs ou un crawl interne ne vous dit pas pourquoi Google rejette les pages, ça vous dit juste qu'il le fait.
Les trois principes directeurs que j'applique systématiquement :
Distinguer symptômes, causes et effets. Un taux CNI élevé (symptôme) peut avoir pour cause un contenu thin, un maillage pauvre, ou un problème de qualité domaine. L'effet secondaire sera une dilution du ranking. Traiter le symptôme sans identifier la cause revient à changer les pneus d'une voiture sans moteur.
Prioriser par ROI d'indexation. Indexer uniquement les pages avec justification business. La cible 70-80% d'indexation utile implique d'accepter que 20-30% des URLs ne méritent pas d'être indexées et de l'assumer clairement dans votre politique éditoriale.
Commencer par les actions réversibles. Noindex plutôt que 410, canonical plutôt que suppression, robots.txt plutôt que refonte architecturale. Les quick wins mesurables permettent de valider l'approche avant les chantiers structurels et, surtout, de les défendre en interne avec des données.
L'indexation n'est pas un sujet glamour. C'est précisément pour ça qu'elle représente un avantage compétitif : la plupart des e-commerces ne font pas ce travail correctement. Ceux qui le font avec rigueur récoltent des gains durables, pas en ajoutant des pages, mais en sélectionnant lesquelles méritent d'exister dans l'index.

Réduire son index de moitié pour doubler son trafic organique en six semaines : c'est le résultat do…

85,6% des requêtes e-commerce déclenchent des Product Listings et les pages catégories génèrent 413%…