Warum A/B Tests kritisch zu betrachten sind

A/B-Tests sind ein beliebter Ansatz, um im Prozess der Optimierung von Web-Angeboten vorgenommene Änderungen einer Erfolgsprüfung zu unterziehen. Die mit Änderungen versehene Version wird an einen Teil der Nutzer ausgeliefert, andere sehen die unveränderte ursprüngliche Version. Dann wird gemessen, welche Version mehr Conversions erzeugt und nach einiger Zeit steht auf solider statistischer Basis fest, welche Veränderungen erwiesenermaßen Coversion-Steigerungen erbringen. Das klingt so einfach wie erstrebenswert, kann aber zu Täuschungen und Enttäuschungen führen, wenn die methodologische Basis missachtet wird.

Der britische Data Scientist Martin Goodson hat bereits 2014 in einem Vortrag(1) dargelegt, warum viele positive A/B-Testergebnisse wissenschaftlicher Betrachtung nicht Stand halten. Die Crux beim A/B-Testen ist die Beachtung der Test-Güte (statistical power). Goodson argumentiert überzeugend, wie in immer noch verbreiteter Praxis viele A/B-Tests mit unzureichender Trennschärfe dazu führen, dass falsch positive Ergebnisse nicht erkannt werden können und so scheinbar erfolgreiche Änderungen umgesetzt werden, die bestenfalls keinen Effekt haben, schlimmstenfalls aber die Conversion-Zahlen sogar drücken können.

Wie kommt das?

Größe der Stichprobe

Goodson nennt 6000 Coversions (in Worten: sechstausend. Conversions, nicht Visits) als Mindestgröße, um eine Leistungsverbesserung von 5% statistisch hinreichend sicher belegen zu können. Zum Nachweis einer – in der Praxis schwer zu erreichenden – Verbesserung von 10% seien immer noch 1600 Conversions nötig. Nicht jedes Online-Angebot kann in überschaubarer Zeit mit solchen Conversion-Zahlen aufwarten.

Testlaufzeit

Viele A/B-Tests laufen einfach zu kurz. Die Ergebnisse des laufenden Test unterliegen meist laufender Beobachtung. Zeigt sich der Erfolg einer Variante, wird der Test schnell beendet – oft schon nach wenigen Wochen oder gar Tagen. Ein solches Vorgehen führt über mehrere Tests so gut wie sicher zu falsch positiven Ergebnissen.

Die Mindestdauer eines A/B-Test kann und sollte, wie alle Parameter der Test-Power, bereits im Vorfeld des Tests statitisch berechnet werden. Eine beispielhafte Berechnung über den Test-Dauer-Rechner von converlytics (2) ergibt für einen einfachen A/B-Test mit 1000 Besuchern pro Tag und Variante, bei einer Conversion-Rate von 3% und einer erwarteten Verbesserung von soliden 5%, eine Mindestlaufzeit von 204 Tagen zur Erreichung eines Konfidenz-Niveaus von 95%. Bei 100 Besuchern pro Tag und Variante sind es 2031 Tage (Ja, das sind tatsächlich gute fünfeinhalb Jahre).

Zuviele Tests

Testen, Testen, Testen, dann stellen sich auch schnell die Erfolge ein. Das ist eine verbreitete Maxime beim Einsatz von A/B-Tests und der Anschein des Erfolgs entsteht mit diesem Ansatz in aller Regel tatsächlich. Martin Goodson zeigt in seinem Vortrag den statistischen Hintergrund dieser typischen und doch falschen Beobachtung: Mit zunehmender Anzahl der Tests steigt eben auch die Zahl falsch positiver Ergebnisse, die mangelnde Test-Power führt dazu, dass diese nicht als solche erkannt werden.

Was tun?

Der Gedanke des A/B-Testings ist mit den Ausführungen Goodsons keineswegs obsolet. Nur sollte man, eigentlich selbstverständlich, wissen, wie es richtig gemacht wird und ob es als Werkzeug im Rahmen der eigenen Strategie überhaupt taugt. Die sorgfältige Vorbereitung und Beachtung der statistischen Testgüte sind unbedingte Voraussetzungen für brauchbare Ergebnisse.

Wenn in so einem Fall A/B-Tests um den Preis der statistischen Power mit zu kleinen Stichproben und zu kurzen Laufzeiten umgesetzt werden und die dabei zweifelsohne auftretenden Erfolge nur Schein sind, ist das eine Verschwendung von Ressourcen, die besser für andere, eben nicht testgetriebene, Bereiche der Marketing-Optimierung aufzuwenden wären.

Um Martin Goodson selbst zu zitieren:

“I don’t think you can trust the data for everything. You should trust
your experience and your education, because people know how to sell
things to other people, they’ve been doing it for thousands of years.”

Inspirierendes Fazit eines so fundierten wie ernüchternden Vortrages.

1: https://www.youtube.com/watch?v=MdkHLS0FPMk
2: https://converlytics.com/dauer-rechner-ab-test/

Illustration einer grünen Blume mit einer Sonnenbrille auf, die in einer blau gepunkteten Vase steht