Pour les sites avec un très grand nombre de produits, l’une des stratégies pour améliorer le trafic de longue traine est de créer une nouvelle page pour presque chaque expression pertinente.

Ça semble assez simple en théorie, mais quand on doit créer des 100aines de milliers de nouvelles pages, ce n’est plus possible de vérifier la pertinence de chaque page manuellement.

Il est donc très fréquent de mettre en prod des pages non pertinentes juste parce qu’une requête contient un mot intéressant ou est sorti dans les termes similaires d’outils comme SEMrush.

C’est assez compliqué d’être ultra propre en utilisant juste des scripts de sélection des mots-clés et sans faire de repasse manuellement.

Beaucoup d'acteurs ont cette problématique :)



C'est le cas sur La Redoute mais c'est une problématique que tous les sites rencontrent :

Rakuten : Exemple 1 - Exemple 2 - Exemple 3

RueDuCommerce : Exemple 1 - Exemple 2 - Exemple 3

Leroy Merlin : Exemple 1 - Exemple 2 - Exemple 3

AliExpress : Exemple 1 - Exemple 2 - Exemple 3

Amazon : Exemple

Cdiscount : Exemple

Globalement, Cdiscount et Amazon s'en sortent très bien, ils ont fait un nettoyage colossal, contrairement à Aliexpress...

Les pages non pertinentes sont souvent comiques, parfois gloques et occasionnellement à la limite de la légalité.

Et ca permet aussi de récupérer des backlinks via du bad buzz : La Voix du Nord

Bref, ca donne une image très moyenne de la marque en plus d’avoir un effet négatif sur le SEO en multipliant les pages que Google pourrait assimiler à du spam.

Une fois ce constat posé, nous allons voir une méthode qui permet de détecter les cas où un site n’a pas de produits pertinents pour une requête.

Pour se faire, nous allons utiliser R et un outil de reconnaissance d’images type Google Vision

L’objectif est d’analyser la similarité des images qui s’affichent sur le site e-commerce vs sur Google Images pour détecter les expressions qui n’ont pas les bons produits

Polo 5 portes SEO



Etape 1 : Récupérer des mots-clés dans votre thématique

Je ne vais pas vous apprendre grand chose sur cette étape. Utilisez vos outils préférés (Keyword Planner, SEMrush, Ubersuggest, Seoquantum, etc).

Pour l’exemple, je vais prendre une recherche sur des vêtements « Polo homme ».

Et on va partir sur 15 expressions à tester sur le site de La Redoute :

  • polo marinière
  • polo 5 portes
  • polo carat
  • polo bmw
  • polo noire
  • polo noir
  • polo kariban
  • polo united
  • polo joue à fortnite
  • polo à l’eau
  • polo 4 ans
  • polo 4
  • polo canne
  • polo manche longue
  • polo allstar

Même manuellement, ça ne paraît pas toujours évident de statuer sur la pertinence de chaque expression.



Etape 2 : Récupérer les URLs des images

Pour faire travailler l’outil de reconnaissance visuelle, il faut récupérer les URLs des premières images de Google Images pour chaque requête.

Plusieurs possibilités :

  • Soit, vous demandez à un prestataire (Ranks, Monitorank, Myposeo, etc) de vous fournir les URLs des images qui s’affichent sur vos mots-clés.
  • Soit, vous utilisez un service comme DataForSEO pour vous retourner les URLs des images via une API.
  • Soit, vous créez un script pour scraper Google Images (bon courage)

L'objectif étant de récupérer dans R les URLs des images pour vos expressions :

Scrap Google Images

Il faut ensuite récupérer les URLs des images qui s’afficheraient pour la même requête sur votre site. Souvent, lancer l’expression dans le moteur interne permet de facilement récupérer les images des produits.

C’est assez simple de récupérer les URLs avec quelques lignes de R.

Scrap Images Redoute

Et voilà, nous avons les URLs des images provenant de Google Images et celles du site La Redoute.



Etape 3 : Passer les URLs dans Google Vision pour récupérer des tags

On passe un nombre défini d’URLs provenant de Google Images dans Google Vision. Ici, j’ai paramétré 3 images à tester, on peut en faire davantage ce qui rendra les résultats plus fiables, mais ça coûtera aussi plus cher chez Google Vision.

Pour chaque URL, Google vision va retourner des tags avec un pourcentage de confiance :

Exemple de tags sur Google Vision

Via R, on appelle l’API de Google Vision pour les 3 URLs, et on fait un rapide calcul pour additionner les tags qui reviennent le plus souvent avec le plus haut taux de confiance. Et on met un ratio en base 100.

Script R et API Google Vision

On fait exactement la même chose pour les 3 premières URLs images provenant du site La Redoute :

Script R et API Google Vision


Et voilà, le plus difficile est fait, nous avons 2 sets de tags qu’il n’y a plus qu’à comparer.

Sur l'exemple de « Polo 5 portes », il faudra comparer les sets suivants

Polo 1
Polo 2

Etape 4 : Calculer la similarité entre les Tags provenant de Google Images et les Tags provenant du site

Quelques lignes de R permettent de calculer le pourcentage pondéré des tags présents dans les 2 sets de données.

Script R similarité

Ici on voit qu’aucun tag n’est commun sur l’expression « polo 5 portes ». Ce qui paraît logique.

Avec ce script, on peut récupérer rapidement des informations de pertinence pour des milliers d'expressions, et complètement automatiquement.

Script R similarité

Ici, on voit clairement que toutes les expressions non pertinentes sont à 0%, et que les expressions intéressantes ont un taux de matching significatif.

C'est gagné !


Comme souvent, une seule méthode ne suffira pas à tout nettoyer, il faudra croiser plusieurs techniques pour réussir à sélectionner de façon 100% automatique les expressions qui auront le droit à une page sur le site.

Ca reste néanmoins une méthode intéressante qui sort un peu des techniques conventionnelles et qui donne de bons résultats




Et voilà ! C'est déjà fini, j'espère que cet article vous a intéressé, pour le partager c'est >>ici<<




PS : Pour le budget, ca coûte environ 10$ pour 1000 expressions (DataForSEO + Google Vision)