Plus j’évolue dans le domaine du SEA, et plus je me rends compte que faire des A/B Tests propres et fiables n’est pas si simple.


Beaucoup de sites prennent des décisions sur des analyses bancales. En ouvrant LinkedIn, on est inondé de pourcentages de progression plus louches les uns que les autres.

Mega Perf de Linkedin

Toutes ces études, où on ne verra ni le protocole ni les détails des résultats me font penser qu’on peut faire dire ce qu’on veut aux chiffres.


C’est assez facile de communiquer sur le résultat qu’on veut, quand on n'est pas regardant sur le protocole :

Pipaudalie


10 personnes “volontaires” sans groupe contrôle…

Mais même sans être mal intentionné, on peut vite tomber dans 3 biais qui rendent les A/B Tests caduques.

1. La fiabilité statistique

Premièrement, on ne devrait jamais avoir comme conclusion d’un A/B test => "Nous avons gagné +18,72% de ROAS 🎉"

On devrait conclure d’un AB test qu’il y a une probabilité et un intervalle de confiance.

Par exemple, une probabilité de 80% d’avoir un gain de ROAS entre 9% et 29%.

Courbe de probabilité

Avoir un intervalle de confiance très large, ça n'intéresse personne, il faut absolument réduire les probabilités pour obtenir des résultats exploitables. Le seul moyen, c'est d'accumuler un nombre important de données dans le test.



Voici un exemple simple pour comprendre les échelles de grandeur pour détecter un gain dans un A/B test.

Essayons de détecter une augmentation de 5% du taux de conversion, pour un e-commerçant qui a en moyenne 1% de TTR et des CPC à 0,5€

Ici, on connaît dès le départ les écarts :

  • Le bras A (contrôle) a un TTR de 1%
  • Le bras B (traitement) a un TTR de 1,05%

A votre avis, il faudra statistiquement investir combien d'euros pour juste savoir si le bras B est meilleur que le bras A ?














28 000 €


Il faudra faire un test de 28 000€ et 56 000 clics. Et avec ce montant, vous saurez juste que le bras B a 80% de chance d'avoir une performance meilleure que le bras A.
Dans 20% des cas, les données empiriques montreront plus de conversions sur le bras A :)

Courbe de probabilité


Si on voulait être plus précis et connaître le gain du bras B à 2% près. A votre avis, le test coûterait combien ?














1 600 000 €


Il faudrait utiliser 1,6 million d'euros et un total de 3,2 millions de clics pour savoir avec 80% de probabilité que le gain du bras B se trouve entre 4% et 6%.

Pour ceux qui aiment les chiffres, voici le gSheet que j'ai créé pour suivre rapidement les intervalles de confiance de mes A/B tests (ici)

Au final, on ne se rend pas assez compte du volume important de données qu'il faut lorsque le gain n'est pas très élevé. On peut vite tirer des conclusions erronées en stoppant trop tôt un A/B test.

Si par exemple, on lance une simulation de cet exemple via 100 000 tests unitaires, on constate qu'avant 1000 conversions, l'analyse sera erronée.

Simulation aléatoire


Bref, vous comprenez que quand on voit des posts sur LinkedIn avec 200 clics et 6 conversions...


On est souvent tenté d'allonger la durée des tests pour avoir plus de données et réduire l'intervalle de confiance. Mais, plus la durée augmente et plus vous risquez de tomber dans les biais n°2 et n°3.

2. Les bras non équivalents

La plupart des régies et des agences arrêtent leur analyse de fiabilité des A/B tests juste sur l'intervalle de confiance statistique.

Cependant, l'intervalle de confiance part toujours du postulat que les 2 bras de l'A/B test sont 100% équivalents pour lancer l'analyse, ce qui en réalité n'est jamais exact voire parfois complètement faux.

On utilise le plus souvent 3 méthodes pour spliter une campagne en 2 bras "presque" équivalents. Mais toutes ont des biais.


La méthode User Based

Cette méthode prend juste aléatoirement des internautes pour les répartir dans le bras A ou dans le bras B.

Cependant, si on a le même volume d’internautes dans chaque bras, on ne contrôle rien de leur qualité.

On peut facilement avoir une proportion des meilleurs clients fidèles plus grande dans l’un des bras vs l’autre.

Par nature, les 2 bras ne seront jamais 100% équivalent. Dès le début, il y aura un biais de quelques pourcents qui correspondent à des internautes plus ou moins appétents à la marque dans les bras.

2 groupes différents


La méthode Géographique

On estime qu’une zone géographique a très exactement les mêmes performances qu’une autre zone en se basant sur les données historiques.

Déjà, il faut comprendre que les données passées ne préjugent pas à 100% des données futures.

De très petits paramètres, comme la météo, les congés, des grands événements sportifs, le mois de l’année peuvent modifier fortement la performance par géographie.

Par exemple, 20% des Parisiens vont au ski chaque année. Si vous avez Paris ou la région Rhône-Alpes dans un test en février/mars, vous allez avoir un biais dès le départ, car vous allez cibler temporairement un volume conséquent d'internautes qui était ailleurs lors du calcul des bras.

Parisien au ski



La méthode aux produits

C’est le protocole FeedX chez Google, on découpe un groupe de produits en 2 groupes différents avec presque le même historique de performance.

Sûrement la méthode qui peut le plus vite générer des biais dans les bras d'A/B Test.

Il suffit que quelques top produits changent de prix, ou passent hors stock, ou la saisonnalité qui change, ou des nouveaux produits très performants qui cannibalisent ceux du test.

Bref, il suffit de peu de chose pour que les bras n'aient plus du tout la même performance.



Et en plus, c'est très difficile d'estimer quand les bras sont non équivalents car on attribuera toujours les écarts aux éléments variants dans le test.

3. Les biais du bidding

Pour ajouter encore du biais, les algorithmes de pilotage ne gardent pas une pression constante sur les 2 bras lorsqu'on pilote au CPA ou au ROAS.

Google ne peut pas attendre 1000 conversions sur une campagne pour avoir des certitudes statistiques sur les performances.

Dès les premières conversions, les budgets entre les bras se déphasent facilement et on récupère vite une diffusion différente.

On voit souvent des tests, où on doit intervenir pour freiner ou accélérer la diffusion d’un bras pour ré-équilibrer le volume investi.

Bien entendu, ce n'est pas neutre sur la fiabilité du test, si un bras a fait plus de volume sur une période, on ne peut pas compenser en baissant le volume sur la période suivante sans biaiser les données.


Conclusion



Quand vous faites un test, vous devez additionner les 3 types de biais ci-dessus.

Autant dire que ça devient très compliqué de détecter avec certitude des gains avec une marge d'erreur de moins de 5%. Et pourtant, c'est cet ordre de grandeur que génère la quasi-totalité des A/B tests que je vois.

Il faut se rendre à l'évidence, dans beaucoup de cas, si vous voyez des lifts à +50% soit vous partez de très loin soit votre test est biaisé :)

Il faudrait être assez lucide pour s'en rendre compte, même si, pouvoir communiquer des bons chiffres est toujours tentant 👀





Rendez-vous sur Twitter Linkedin pour me donner votre avis. >>cliquez-ici<<