La décision d'indexation n'est pas un réflexe technique. C'est une compétence SEO avancée. Chaque type de page mérite une règle précise. Avant de fixer ces règles, comprendre la mécanique de l'index bloat est indispensable : c'est ce mécanisme qui explique pourquoi l'accumulation de pages faibles dégrade la performance des pages fortes. Pour évaluer quelles pages méritent d'être indexées, notre méthodologie d'audit SEO e-commerce segmente le catalogue en trois niveaux de valeur avant de recommander une action.

Cet article donne un inventaire complet : les 5 familles de pages à exclure, les signatures dans la Search Console qui signalent une URL toxique, et les 5 méthodes techniques avec leurs limites respectives.

Les pages à exclure par nature

Voici le tableau de référence que j'utilise sur chaque audit. Il couvre 14 types d'URLs, organisés par famille d'exclusion.

Type de pageRisqueMéthode recommandée
Panier, checkout, paiementContenu vide, pas d'intentrobots.txt Disallow
Connexion, inscription, compteAucune valeur SEOnoindex
Résultats recherche interneURLs infinies, cannibalisationrobots.txt Disallow
Wishlist, comparaisonContenu dynamique utilisateurrobots.txt Disallow
Facettes 2+ filtres combinésExplosion combinatoirenoindex,follow
Tris (prix, popularité, date)Contenu dupliquénoindex ou robots.txt
Pagination page 10+Aucune valeur, profondeur excessivenoindex,follow
Paramètres tracking/sessionDuplication massiveCanonical + robots.txt
Produit OOS définitif sans backlinksCrawl gaspillé410 Gone
Produit OOS définitif avec backlinksLink equity à préserver301 vers similaire
Promos périmées (URL millésimée)FragmentationURL evergreen + mise à jour
Catégorie < 3 produitsThin contentnoindex jusqu'à enrichissement
Variantes produit sans search demandDuplicationCanonical vers produit principal
CGV, mentions légalesPeu de valeur SEO directeÉvaluer selon stratégie

L'inventaire des 5 familles

Ces pages n'ont aucun intent de recherche associé. Le panier, le checkout, le paiement sont des espaces de conversion interne, pas des destinations d'entrée pour un utilisateur qui cherche sur Google. La méthode recommandée est le robots.txt Disallow : bloquer le crawl en amont, puisque ces pages n'ont jamais de backlinks légitimes entrants susceptibles de provoquer une indexation malgré le blocage. Les pages de compte (connexion, inscription, adresses enregistrées) passent en noindex plutôt qu'en robots.txt, car certaines peuvent recevoir des liens depuis des emails transactionnels.

La recherche interne mérite une attention particulière. Une barre de recherche interne avec des paramètres ?q= ou ?search= peut générer une quantité illimitée d'URLs. Sur certains sites, j'ai vu le répertoire /recherche/ représenter plus de la moitié des URLs crawlées par Googlebot. Le Disallow robots.txt est impératif dès le lancement du site.

Le cas des pages de facettes illustre mieux que n'importe quel autre exemple la mécanique de l'explosion combinatoire. Gary Illyes (Google) a déclaré sans ambiguïté en décembre 2024 que les facettes sont « by far the most common source of overcrawl issues ». La règle de base : toute combinaison de 2 filtres ou plus passe en noindex,follow. Le follow est important : il préserve le flux de popularité vers les pages produits et catégories, sans exposer l'URL indexable.

Une facette unique peut rester indexée, mais uniquement si elle remplit deux conditions cumulatives : une demande de recherche vérifiable (volume supérieur à 500 recherches/mois selon la taille du catalogue) et une offre suffisante (minimum 3 à 5 produits disponibles). Aleyda Solis appelle ce double critère le framework "demande + offre". Si une seule condition est négative, ne pas indexer. Les tris (par prix, par popularité, par nouveauté) génèrent presque toujours du contenu dupliqué avec la catégorie parente. La méthode dépend du site : noindex si les tris ont des URLs distinctes, robots.txt si le volume est massif.

Les pages de pagination profonde suivent une règle que j'applique systématiquement : les pages 2 à 5 reçoivent un self-canonical vers elles-mêmes (elles restent crawlables), et les pages 10+ passent en noindex,follow. Point critique souvent mal appliqué : ne jamais canonicaliser une page de pagination vers la page 1 de la catégorie. Google le documente explicitement : cette pratique envoie un signal contradictoire et peut provoquer l'exclusion non souhaitée de la page 1.

L'explosion combinatoire facettes x pagination est le scénario le plus destructeur. Un catalogue de 10 000 produits avec 4 niveaux de facettes et 20 pages de pagination par combinaison peut générer des dizaines de millions d'URLs indexables. Botify a documenté un client réel : un site de 200 000 produits avait généré plus de 500 millions d'URLs via ses facettes non contrôlées.

Les produits en rupture temporaire (moins de 30 jours) restent en HTTP 200 avec le schema OutOfStock. Supprimer l'URL et la recréer fait perdre l'historique et les éventuels backlinks. Pour les produits discontinués sans backlinks, le 410 Gone est le signal le plus clair pour Googlebot. Pour les produits discontinués avec backlinks, un 301 vers un produit similaire préserve la link equity. La règle sur les promotions est souvent ignorée : ne jamais créer une URL millésimée comme /promo-black-friday-2024. Créer une URL evergreen /black-friday et mettre à jour le contenu chaque année.

Les paramètres de session (?sessionid=abc123), les paramètres de tracking UTM, les versions de staging ou de développement accessibles sans authentification. Ces pages se retrouvent dans l'index parce que personne n'a pensé à les exclure au lancement. Sur les sites construits sous WordPress avec WooCommerce, les archives d'auteurs et les pages de tags peuvent générer des dizaines de pages dupliquées sans valeur. Un canonical combiné à un Disallow robots.txt est la méthode appropriée pour les paramètres : le canonical envoie le signal d'URL préférée, le Disallow évite de gaspiller le budget crawl sur les variantes.

Les signatures GSC d'une URL toxique

La Search Console est l'outil le plus direct pour détecter les zones à désindexer avant qu'elles ne deviennent un problème. Deux statuts concentrent l'essentiel de l'information.

  • "Découverte : actuellement non indexée" : Ce statut signifie que Google a trouvé l'URL (via un lien interne, un sitemap) mais ne l'a pas crawlée. La raison officielle est souvent mal interprétée : ce n'est pas un problème de capacité serveur, c'est un signal de priorisation. Google a jugé d'autres URLs plus importantes à crawler en premier.
  • "Crawlée : actuellement non indexée" : Contrairement au précédent, Google a crawlé la page mais a décidé de ne pas l'indexer. C'est un verdict de qualité algorithmique, pas un problème technique. Quand ce statut affecte un répertoire entier (par exemple /filtres/, /recherche/, /tri/), la décision est claire : désindexer en masse. Glenn Gabe (GSQi) a documenté un cas où un répertoire de 3 millions de pages ne générait que 5 790 clics sur 90 jours, soit un ratio de 0,002 clic par page. Ce type de cluster, même s'il passe sous le radar du statut GSC, est un signal identique.

Les 4 KPIs de santé d'indexation à calculer dans GSC

Ces quatre ratios donnent une photo de l'état d'un index en moins de 10 minutes.

Le Crawl Ratio mesure la part des pages indexées que Google a effectivement crawlées récemment. Un ratio faible indique un budget mal alloué. L'Index Ratio compare le nombre de pages indexées au nombre de pages attendues (URLs soumises dans les sitemaps). Au-delà de 1,3 (30% de plus que prévu), l'index est hors contrôle. L'Active Pages Ratio est la mesure la plus révélatrice : part des pages indexées qui génèrent au moins une impression dans GSC. Les données Botify montrent qu'un Active Pages Ratio supérieur à 30% correspond à un index sain ; en dessous, le nettoyage est prioritaire. Enfin, le Crawl Waste calcule la part du budget crawl consommé par des pages sans valeur (statut "Crawlée, non indexée" + pages en dehors du sitemap). Un Crawl Waste supérieur à 40% sur un site de 10 000 URLs ou plus justifie une intervention immédiate.

Choisir la bonne méthode d'exclusion : les 5 leviers et leurs limites

Cinq méthodes permettent d'exclure une page de l'index. Elles ne sont pas interchangeables. Chacune a un périmètre d'application précis et des limites documentées.

robots.txt : bloque le crawl, jamais l'indexation

Le piège est documenté mais encore commis sur la majorité des sites que j'audite. Si un site externe envoie des liens vers une page bloquée par robots.txt, Google peut indexer cette page sur la base des signaux externes, sans pouvoir la crawler. Résultat : la page apparaît dans les SERPs avec la mention "Aucune information disponible sur cette page". La règle : le robots.txt s'applique sur des zones entières sans backlinks légitimes (recherche interne, checkout, facettes à volume massif). Il ne remplace jamais le noindex pour les pages ayant potentiellement des liens entrants.

Meta noindex : la seule directive vraie

Google la documente explicitement : « When Googlebot crawls that page and extracts the tag, Google will drop that page entirely from Google Search results. » C'est une directive, pas un hint. Mais elle a un délai : entre 15 jours et plusieurs mois selon l'autorité du site et la fréquence de crawl. Pour les sites à faible fréquence de crawl, planifier la désindexation en amont de toute migration ou cleanup.

rel=canonical : un hint, pas une règle

Google l'ignore dans 30 à 40% des cas dès qu'il détecte des signaux conflictuels : liens internes vers la mauvaise URL, sitemaps incluant les URLs variantes, contenu trop similaire à la canonical déclarée. Sur les sites qui injectent le canonical via JavaScript, les données SearchVIU mesurent un délai de 23 à 34 jours avant prise en compte. Le canonical est efficace pour les variantes de produit (couleur, taille) quand la gestion est propre. Pour les clusters massifs comme les facettes ou la recherche interne, le noindex est plus fiable.

410 vs 404 : l'arbitrage de la suppression définitive

L'étude Reboot Online sur 350 000+ lignes de données tranche avec une signifiance statistique de 95% : les URLs en 410 sont crawlées 49,6% moins souvent que les 404. Kevin Indig, ex-directeur SEO de Shopify, formule la mécanique ainsi : « 410s are treated like 301s and 404s like 302s. » Le 410 envoie un signal de suppression permanente et définitive. À réserver aux pages sans backlinks, où la vitesse de désindexation prime sur la préservation de la link equity.

301 : préserver la link equity lors d'une suppression

Quand une page à désindexer dispose de backlinks externes ou d'un historique de positionnement, le 301 vers une URL de remplacement pertinente est préférable au 410. Depuis la clarification Google de 2016, les 301 transmettent le PageRank. Un produit discontinué qui a accumulé des liens depuis 3 ans ne doit jamais passer en 410 : les signaux accumulés sont perdus. La règle de décision est simple : backlinks existants = 301 vers la page la plus proche dans le catalogue ; aucun backlink = 410.

Point de vigilance Shopify : La directive seo.hidden dans Liquid applique simultanément noindex et nofollow. Il est impossible nativement de séparer les deux comportements. Si le flux de popularité sortant est important pour la page concernée, des solutions via des thèmes personnalisés ou des apps tierces sont nécessaires.

La matrice ROI d'indexation : décider rationnellement

Chaque décision d'indexation est calculable. Ce n'est pas une question d'intuition ou de règle universelle. C'est une équation coût/bénéfice appliquée à chaque type d'URL.

La formule de base :

  • Revenu estimé = volume de recherche mensuel x CTR estimé x taux de conversion x panier moyen.
  • Coût total = temps de création initiale + maintenance récurrente + fraction du crawl budget consommé.

Si le revenu estimé est supérieur au coût total sur 12 mois, la page mérite d'être indexée. Sinon, elle est candidate à l'exclusion. Le calcul n'a pas besoin d'être parfait pour être utile : une estimation à l'ordre de grandeur suffit à trier les cas évidents des cas limites.

Exemple appliqué : facette "chaussures running homme taille 42". Volume : 90 recherches/mois. CTR estimé à la position 5 : 4%. Taux de conversion : 3%. Panier moyen : 100€. Revenu mensuel estimé : 90 x 0,04 x 0,03 x 100 = 10,80€/mois. Sur 12 mois : 129,60€. La maintenance d'une page de facette indexable (contenu unique, maillage entrant, suivi GSC) représente au minimum plusieurs heures annuelles. Le verdict est immédiat : cette facette ne doit pas être indexée.

Seuils de rentabilité par taille de catalogue

Le volume de recherche minimal pour justifier l'indexation d'une facette dépend de la taille du catalogue, parce que le coût d'opportunité du crawl budget est variable.

Taille de catalogueVolume mensuel minimum
Moins de 1 000 produits100 recherches/mois
1 000 à 10 000 produits200 recherches/mois
10 000 à 100 000 produits500 recherches/mois
Plus de 100 000 produits1 000 recherches/mois

Ces seuils sont des points de départ, pas des règles absolues. Un site à forte autorité de domaine peut se permettre d'indexer des facettes à 200 recherches/mois là où un site jeune devrait rester au-dessus de 1 000.

Les erreurs qui coûtent cher

  • "Indexer au cas où" : C'est l'erreur la plus documentée en SEO e-commerce. Kevin Indig a constaté une relation inverse entre le nombre de pages indexées et le trafic organique sur les sites qui dépassent un certain ratio. La logique intuitive ("plus de pages = plus de chances de ranker") est exactement l'inverse de ce qui se passe algorithmiquement une fois que la dilution s'installe.
  • Copier Amazon : Amazon indexe presque tout. Avec un DR de 95+ et des milliards de backlinks, les algorithmes de qualité Google accordent un traitement différent à ses pages faibles. Sur un site à DR 35, les mêmes pages faibles pèsent proportionnellement beaucoup plus lourd dans l'évaluation qualitative globale.
  • Confondre trafic et valeur business : Une page peut avoir des milliers d'impressions et générer zéro conversion. À l'inverse, une page produit avec 50 impressions par mois peut générer 10 ventes si l'intent est parfaitement aligné. La matrice ROI doit intégrer le revenu, pas uniquement le trafic.
  • Combiner noindex + canonical : John Mueller a été direct en 2024 : « Just pick one. SEO is often about making your preference very clear and not about maybes. » Combiner noindex et canonical vers une autre URL envoie des signaux contradictoires. Le noindex demande à Google de retirer la page de l'index. Le canonical lui dit d'attribuer les signaux à une autre URL. Les deux instructions sont incompatibles. Choisir l'une ou l'autre selon l'objectif.
  • Appliquer robots.txt avant le noindex : La séquence compte autant que l'action. Si robots.txt Disallow est appliqué sur une URL avant que le noindex ne soit crawlé et pris en compte, Google ne pourra plus jamais lire la directive de désindexation. La page reste dans l'index avec la mention "Aucune information disponible". La règle : laisser Googlebot crawler le noindex, attendre la désindexation confirmée dans GSC, puis bloquer via robots.txt.

Ce qui se cache derrière chaque décision d'exclusion

Les cas Skroutz (-72% d'URLs, trafic amélioré) et HubSpot (10,5 millions de pages désindexées, erreurs canonical -90%, mois record de trafic) montrent que la désindexation n'est pas une opération à risque quand elle est ciblée. Nick Eubanks a documenté un e-commerce qui a canonicalisé ses variantes de produits et supprimé ses pages thin : résultat, +46% de trafic organique (de 210 000 à 306 000 visites/mois) en 3 mois.

Ces résultats ne sont pas des exceptions. Ils reflètent un mécanisme constant : quand les pages sans valeur sont retirées, les pages stratégiques captent un crawl mieux ciblé et des signaux de qualité plus concentrés. Pour passer à l'action sur votre site, l'étape suivante est d'appliquer les 4 phases du cleanup d'indexation, qui structurent l'ordre d'opération pour ne pas casser ce qui fonctionne.

FAQ des pages à ne pas indexer en e-commerce

La réponse dépend d'un facteur : ces pages reçoivent-elles des liens externes ? Dans la grande majorité des cas, non. Le robots.txt Disallow est la méthode recommandée : il protège le crawl budget sans risque d'indexation, puisqu'aucun signal externe ne peut forcer Google à indexer une URL sans backlinks. Le noindex s'applique en remplacement si, par anomalie, des liens externes pointent vers ces pages : il garantit la non-indexation même si Googlebot passe. Ne jamais combiner les deux sur la même URL.

Le statut GSC "Crawlée — actuellement non indexée" est un verdict de qualité algorithmique, pas un problème technique. Google a crawlé la page et a décidé qu'elle n'apportait pas assez de valeur pour mériter une place dans l'index. Ajouter l'URL au sitemap n'y change rien. La solution n'est pas de corriger le sitemap, c'est d'améliorer la qualité de la page : enrichir le contenu, renforcer le maillage interne entrant, clarifier l'intent couvert.

Non. C'est l'erreur technique que John Mueller a explicitement signalée en 2024 : les deux instructions sont incompatibles. Le noindex demande à Google de retirer complètement la page des résultats. Le canonical lui dit de transférer les signaux vers une autre URL. Les combiner envoie un signal contradictoire. Choisir : si l'objectif est la désindexation totale, utiliser le noindex seul. Si l'objectif est de consolider les signaux vers une URL canonique, utiliser le canonical seul (sans noindex sur la page source).

Non. C'est la confusion la plus répandue. Le robots.txt contrôle le crawl, jamais l'indexation. Une page bloquée par robots.txt peut apparaître dans les résultats Google si des sites externes lui envoient des liens. Google l'indexera sur la base des signaux externes, sans pouvoir la crawler. Pour garantir la non-indexation, la page doit être accessible au crawl (pour que Googlebot lise le noindex) ET porter une balise <meta name="robots" content="noindex">.

Le risque inverse est documenté et plus élevé. Skroutz a réduit son index de 72% et a vu ses impressions et sa position moyenne s'améliorer. HubSpot a désindexé 10,5 millions de pages et a réalisé son mois record de trafic. Ces résultats ne sont pas des coïncidences. Quand des pages sans valeur sont retirées, les ressources de crawl et les signaux de qualité se concentrent sur les pages stratégiques. La condition nécessaire : renforcer les pages stratégiques avant de désindexer, pour que la popularité libérée ait des pages solides vers lesquelles converger.

Deux conditions doivent être remplies simultanément. La demande de recherche doit être vérifiable (volume supérieur au seuil de rentabilité de votre catalogue, voir tableau ci-dessus). Et l'offre doit être suffisante : minimum 3 à 5 produits disponibles correspondant exactement à la combinaison de filtres. Si l'une des deux conditions est négative, la facette ne doit pas être indexée. Une seule facette peut rester indexée si les conditions sont réunies. Deux facettes combinées ou plus passent systématiquement en noindex,follow, quelle que soit la demande.

Sources et références

  1. Block indexing with noindex — Google Search Central (directive noindex officielle + piège robots.txt)
  2. Crawling December: Faceted Navigation — Google Search Central Blog, décembre 2024 (Gary Illyes — facettes = source #1 sur-crawl)
  3. SEO Crawl Budget Optimization — Skroutz Engineering Blog (25M → 7,6M URLs, -72%)
  4. How We Fixed Google's Deindexing Issue — Botify (cas HubSpot, 10,5M pages, mois record trafic)
  5. 404 vs 410: The Technical SEO Experiment — Reboot Online (350K+ lignes, T-test 95%, Kevin Indig)
  6. Nick Eubanks — E-commerce SEO Case Study — +46% trafic organique en 3 mois via canonicalisation variantes