{"id":279,"date":"2019-06-15T17:43:29","date_gmt":"2019-06-15T15:43:29","guid":{"rendered":"https:\/\/mainetcare.de\/?p=279"},"modified":"2024-08-04T11:28:51","modified_gmt":"2024-08-04T09:28:51","slug":"warum-a-b-tests-kritisch-zu-betrachten-sind","status":"publish","type":"post","link":"https:\/\/mainetcare.de\/website-pflege\/warum-a-b-tests-kritisch-zu-betrachten-sind\/","title":{"rendered":"Warum A\/B Tests kritisch zu betrachten sind"},"content":{"rendered":"\n

A\/B-Tests sind ein beliebter Ansatz, um im Prozess der Optimierung von  Web-Angeboten vorgenommene \u00c4nderungen einer Erfolgspr\u00fcfung zu  unterziehen. Die mit \u00c4nderungen versehene Version wird an einen Teil der Nutzer ausgeliefert, andere sehen die unver\u00e4nderte urspr\u00fcngliche Version. Dann wird gemessen, welche Version mehr Conversions erzeugt und nach einiger Zeit steht auf solider statistischer Basis fest, welche  Ver\u00e4nderungen erwiesenerma\u00dfen Coversion-Steigerungen erbringen. Das klingt so einfach wie erstrebenswert, kann aber zu T\u00e4uschungen und Entt\u00e4uschungen f\u00fchren, wenn die methodologische Basis missachtet wird.<\/p>\n\n\n\n

Der britische Data Scientist Martin Goodson hat bereits 2014 in einem  Vortrag(1) dargelegt, warum viele positive A\/B-Testergebnisse wissenschaftlicher Betrachtung nicht Stand halten. Die Crux beim A\/B-Testen ist die Beachtung der Test-G\u00fcte (statistical power). Goodson argumentiert \u00fcberzeugend, wie in immer noch verbreiteter Praxis viele A\/B-Tests mit unzureichender Trennsch\u00e4rfe dazu f\u00fchren, dass falsch positive Ergebnisse nicht erkannt werden k\u00f6nnen und so scheinbar erfolgreiche \u00c4nderungen umgesetzt werden, die bestenfalls keinen Effekt haben, schlimmstenfalls aber die Conversion-Zahlen sogar dr\u00fccken k\u00f6nnen.<\/p>\n\n\n\n

Wie kommt das?<\/h2>\n\n\n\n

Gr\u00f6\u00dfe der Stichprobe<\/h3>\n\n\n\n

Goodson nennt 6000 Coversions (in Worten: sechstausend. Conversions, nicht Visits) als Mindestgr\u00f6\u00dfe, um eine Leistungsverbesserung von 5% statistisch hinreichend sicher belegen zu k\u00f6nnen. Zum Nachweis einer – in der Praxis schwer zu erreichenden – Verbesserung von 10% seien immer noch 1600 Conversions n\u00f6tig. Nicht jedes Online-Angebot kann in \u00fcberschaubarer Zeit mit solchen Conversion-Zahlen aufwarten.<\/p>\n\n\n\n

Testlaufzeit<\/h3>\n\n\n\n

Viele A\/B-Tests laufen einfach zu kurz. Die Ergebnisse des laufenden Test unterliegen meist laufender Beobachtung. Zeigt sich der Erfolg einer Variante, wird der Test schnell beendet – oft schon nach wenigen Wochen oder gar Tagen. Ein solches Vorgehen f\u00fchrt \u00fcber mehrere Tests so gut wie sicher zu falsch positiven Ergebnissen.<\/p>\n\n\n\n

Die Mindestdauer eines A\/B-Test kann und sollte, wie alle Parameter der Test-Power, bereits im Vorfeld des Tests statitisch berechnet werden. Eine beispielhafte Berechnung \u00fcber den Test-Dauer-Rechner von converlytics (2) ergibt f\u00fcr einen einfachen A\/B-Test mit 1000 Besuchern pro Tag und Variante, bei einer Conversion-Rate von 3% und einer erwarteten Verbesserung von soliden 5%, eine Mindestlaufzeit von 204 Tagen zur Erreichung eines Konfidenz-Niveaus von 95%. Bei 100 Besuchern pro Tag und Variante sind es 2031 Tage (Ja, das sind tats\u00e4chlich gute f\u00fcnfeinhalb Jahre).<\/p>\n\n\n\n

Zuviele Tests<\/h3>\n\n\n\n

Testen, Testen, Testen, dann stellen sich auch schnell die Erfolge ein. Das ist eine verbreitete Maxime beim Einsatz von A\/B-Tests und der Anschein des Erfolgs entsteht mit diesem Ansatz in aller Regel tats\u00e4chlich. Martin Goodson zeigt in seinem Vortrag den statistischen Hintergrund dieser typischen und doch falschen Beobachtung: Mit zunehmender Anzahl der Tests steigt eben auch die Zahl falsch positiver Ergebnisse, die mangelnde Test-Power f\u00fchrt dazu, dass diese nicht als solche erkannt werden.<\/p>\n\n\n\n

Was tun?<\/h3>\n\n\n\n

Der Gedanke des A\/B-Testings ist mit den Ausf\u00fchrungen Goodsons keineswegs obsolet. Nur sollte man, eigentlich selbstverst\u00e4ndlich, wissen, wie es richtig gemacht wird und ob es als Werkzeug im Rahmen der eigenen Strategie \u00fcberhaupt taugt. Die sorgf\u00e4ltige Vorbereitung und Beachtung der statistischen Testg\u00fcte sind unbedingte Voraussetzungen f\u00fcr brauchbare Ergebnisse.<\/p>\n\n\n\n

Wenn in so einem Fall A\/B-Tests um den Preis der statistischen Power mit zu kleinen Stichproben und zu kurzen Laufzeiten umgesetzt werden und die dabei zweifelsohne auftretenden Erfolge nur Schein sind, ist das eine Verschwendung von Ressourcen, die besser f\u00fcr andere, eben nicht testgetriebene, Bereiche der Marketing-Optimierung aufzuwenden w\u00e4ren.<\/p>\n\n\n\n

Um Martin Goodson selbst zu zitieren:<\/p>\n\n\n\n

\n

“I don’t think you can trust the data for everything. You should trust
your experience and your education, because people know how to sell
things to other people, they’ve been doing it for thousands of years.”<\/p>\n<\/blockquote>\n\n\n\n

Inspirierendes Fazit eines so fundierten wie ern\u00fcchternden Vortrages.<\/p>\n\n\n\n

1:\u00a0https:\/\/www.youtube.com\/watch?v=MdkHLS0FPMk<\/a>
2:\u00a0
https:\/\/converlytics.com\/dauer-rechner-ab-test\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Die meisten A\/B Tests sind leider \u00fcberfl\u00fcssig. Lesen Sie hier warum.<\/p>\n","protected":false},"author":3,"featured_media":3338,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[22],"tags":[115,114],"class_list":["post-279","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-website-pflege","tag-besucheranalysen","tag-matomo"],"acf":[],"_links":{"self":[{"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/posts\/279"}],"collection":[{"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/comments?post=279"}],"version-history":[{"count":2,"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/posts\/279\/revisions"}],"predecessor-version":[{"id":24828,"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/posts\/279\/revisions\/24828"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/media\/3338"}],"wp:attachment":[{"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/media?parent=279"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/categories?post=279"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/mainetcare.de\/wp-json\/wp\/v2\/tags?post=279"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}