Die Schritt-für-Schritt-Anleitung ohne Jargon zum (gründlichen) Verständnis von A/B-Testmetriken

Veröffentlicht: 2022-08-02
Die Schritt-für-Schritt-Anleitung ohne Jargon zum (gründlichen) Verständnis von A:B-Testmetriken

Großartige Inhalte werden nicht von einer Einzelperson erstellt. Begrüßen Sie die Experten, die diesen Leitfaden ermöglicht haben. Über 80 Jahre Experimentier- und A/B-Testing-Erfahrung – in aMinute lesen.

Alex Birkett
Alex Birkett
Ben Labay
Ben Labay
Curtis Stanier
Curtis Stanier
Deborah O’Malley
Deborah O'Malley
Erik Bernhardson
Erik Bernhardson
Justin Christianson
Justin Christianson
Max Bradley
Max Bradley
Sumantha Shankaranarayana
Sumantha Shankaranarayana
Tim Metha
Tim Metha

Der Versuch, A/B-Testmetriken zu verstehen, ist, als würde man in ein Kaninchenloch voller komplizierter Definitionen, Fachjargon und endloser „Expertenmeinungen“ eintauchen.

Wir machen Ihnen keine Vorwürfe, wenn Sie bei dem Versuch, online etwas Wertvolles zu finden, mehr als einen verärgerten Seufzer ausgestoßen haben.

Google-Suche nach dem Ausdruck „Understanding A/B Testing Metrics“

Selbst wenn Sie davon überzeugt sind, dass Sie Experimente durchführen möchten, kann es sich anfühlen, als würden Eingeweihte Informationen schützen.

Aber wir sind fest entschlossen, das zu ändern. Experimentieren ist für jeden etwas und am Ende werden Sie das auch glauben.

ausblenden
  • Eine harte Wahrheit über den Einstieg ins Experimentieren
    • Verschiedene Möglichkeiten zum Anzeigen von A/B-Testmetriken
    • Argumente für den Wechsel zu einer Insights-First-Strategie (mit den richtigen Metriken)
    • Input, Output & Outcome Metrics: Deconstructing Experimentation Programs mit Ben Labay und Alex Birkett
      • Bens Framework
      • Alex' Go-to-Framework
    • Ziele, Treiber und Leitplanken: Metriken nach Umfang
      • Ziel- oder North Star-Metriken
      • Fahrerkennzahlen
      • Guardrail-Metriken
    • Eine philosophische Interpretation von Metriken: Die 5 Ws
  • Auswahl von Metriken, die einen Unterschied machen, mit einem Treiberbaum
    • Befolgen Sie diese 3 Schritte, um Ihr Experimentierprogramm zu starten
  • Mentale Modelle: Wie Profis ihre Metriken in realen Experimenten auswählen
    • Ben Labay und Goal Mapping
    • Wie Deborah O' Malley dazu beigetragen hat, die CTR zu steigern
    • Warum Justin Christianson sekundäre Datenpunkte hinzufügt
  • CXO: Der Gipfel des Erlernens erster Experimente?

Eine harte Wahrheit über den Einstieg ins Experimentieren

Wir werden uns damit befassen, wie Metriken aus verschiedenen Blickwinkeln betrachtet werden, aber zuerst müssen wir klarkommen.

Diese Aussage haben Sie wahrscheinlich schon einmal gehört: „Beim A/B-Testen gibt es keine Verluste – nur Lernen.“

Dies ist teilweise richtig.

Nicht schlüssige (flache) Tests und sogar Verluste können Ihnen helfen, eine klare Vorstellung davon zu bekommen, was bei Ihrer Zielgruppe nicht funktioniert. Aber wenn Sie das Experimentierprogramm aufbauen und noch kein C-Suite-Buy-in haben, seien Sie darauf vorbereitet, durch einige schwierige Gewässer zu navigieren. Verstehen Sie, dass diejenigen, die das Geld in der Hand halten, nicht besonders glücklich darüber sein werden, esoterische Diskussionen über „Lernen“ ohne beträchtliche Ausbildung zu führen.

Um ihre Zustimmung zu erhalten, müssen Sie zuerst schnelle und greifbare Erfolge vorweisen . A/B-Testergebnisse, die Ihre Manager der Führung melden können, damit sie Vertrauen in die Tatsache zeigen, dass die weitgehend akademisch wissenschaftliche Methode des Experimentierens tatsächlich etwas so Praktisches wie ein Unternehmen vorantreiben kann.

Und der einfachste Weg, das zu tun?

Streben Sie nach den niedrigsten hängenden Früchten: Verbessern Sie die Konversionsrate bei einer Benutzererfahrung, die ziemlich nahe an der Beeinflussung von Geschäften oder Käufen liegt. Angenommen, eine direkte Erhöhung der aufgegebenen Bestellungen um 1000 Einheiten (wie durch Ihr Testergebnis angegeben) lässt sich leicht in Dollar und Gewinne umwandeln.

Bringen Sie diesen Bericht zu einer Vorstandssitzung mit und Sie werden den Raum vor Aufregung brummen lassen – die Art, die entsteht, wenn Sie einen anderen „Akquisitionskanal“, auch CRO genannt, entdecken.

Aber das Quartal wird kommen und gehen, ohne dass Sie jemals die versprochene Spitze sehen. Führungskräfte, die Sie als die Zukunft des Unternehmens gefeiert haben, werden mächtig enttäuscht sein. Budgetkürzungen werden folgen. Und jemand ganz oben (*hust* der unverbesserliche HiPPO *hust*) wird irgendein Hokuspokus darüber ausspucken, dass Experimente niemals traditionelle Kanäle wie Anzeigen und Events übertrumpfen können, die sich bewährt haben.

[HiPPO = bestbezahlte Person mit einer Meinung]

Sehen Sie, was gerade passiert ist? Indem Sie Ihren Tunnelblick aktiviert haben, haben Sie das Experimentieren zu einem reinen CRO degradiert – etwas, das (fast) als neumodischer Akquisitionskanal angesehen wird, um auf dem Tisch liegen gebliebenes Geld zurückzugewinnen. Und dazu noch? All die großen Behauptungen, Betrügereien und Fallstricke, die damit einhergehen.

Lesezeichen: A/B-Tests: Ein vollständiger Leitfaden, den Sie mit einem Lesezeichen versehen möchten

Verschiedene Möglichkeiten zum Anzeigen von A/B-Testmetriken

Experimentieren ist eine Maschine. Aber die meisten Menschen haben ein fehlerhaftes Verständnis davon, wie es funktioniert.

Sie denken, dass der Input geschäftliche Probleme und der Output statistisch signifikant gültige Geschäftslösungen sind . Und dies könnte das ideale Gesamtbild sein.

Diagramm, das Annahmen zum Testen von AB zeigt, wobei Geschäftsprobleme die Eingabe und Lösungen die Ausgabe sind

Heranzoomen akzeptiert die Experimentiermaschine das Lernen und die Anstrengung des wissenschaftlichen Prozesses als Input und liefert Programmmetriken als Output.

Aber hier gibt es ein großes WENN: Damit das Ergebnis schließlich die erwarteten und gewünschten Ergebnisse liefert, ist die Qualität des Experimentierprogramms von größter Bedeutung.

TL;DR: Je besser der Input (gesammelte Daten, Ausbildung, Zertifizierungen, Datenkompetenz und Prozesse), desto besser der Output (Experimentgeschwindigkeit, Gewinnrate, durchschnittlicher Gewinn pro Experiment) und desto höher die Chancen, das Ziel zu erreichen (s) Sie haben Ihr Experimentierprogramm darauf ausgerichtet.

Nur wenn Sie von der Qualität der Experimente besessen sind, haben Sie eine höhere Chance, ein Ergebnis zu sehen, das die Nadel bei großen Wachstums- und Effizienzproblemen bewegen kann, die alle Unternehmen lösen möchten.

Der Weg dorthin führt über eine Kennzahlenstrategie, die Ergebnisse nicht auf ein Podest stellt.

Stattdessen hilft es dem Team, den Input und den Output zu messen und zu verfolgen (der Input ist der einzige Faktor, der den Optimierer direkt kontrolliert) und sie als Gradmesser für den Fortschritt zu verwenden. Der Weg zum Ergebnis ist kein Sprint, sondern ein Marathon, der als Nebenprodukt guten Experimentierens im Hintergrund gelaufen wird.

Verstehen Sie uns nicht falsch. Das ist leichter gesagt als getan.

Oft zeigen Experimente, dass bestimmte Änderungen nicht vorgenommen werden sollten. Besonderheiten sollten nicht versendet werden! Und das Experimentieren an und für sich ist beabsichtigt … den Fokus von einer „Shipping First“-Strategie auf eine „Insights and Learning First“-Strategie zu verlagern (unterstützt durch die richtigen Metriken).

Experimentierscheu ist unter Führungskräften unglaublich verbreitet. Die meisten Gründer haben das Unternehmen jahrelang ohne Experimente aufgebaut, und es kann sich anfühlen, als wäre das Experimentieren eine konservative Kraft, die der Unternehmensgeschwindigkeit, dem Produktmarketing und der Mondschussinnovation im Wege steht.

Erik Bernhardsson, Gründer von Modal Labs

Argumente für den Wechsel zu einer Insights-First-Strategie (mit den richtigen Metriken)

Um wirkliche Fortschritte zu erzielen, müssen wir von der Verfolgung einer Versandstrategie zu einer metrischen Strategie wechseln. Dadurch wird die Produktstrategie dezentralisiert, dh die Ideenfindung nach unten gedrückt, was ideal ist. Und die Übernahme einer metrischen Strategie bedeutet an sich, zu experimentieren. Sie können nicht davor zurückschrecken zu testen, wie sich neue Produktänderungen auf Ihr Unternehmen auswirken.

Gute Lektüre: Der vollständige Leitfaden für multivariate Tests im Jahr 2022

Das „Warum“ Ihres Experimentierprogramms ist in Ihrer Metrikstrategie kodiert.

  • Konzentrieren Sie sich all Ihre Bemühungen auf schnelle Erfolge und Einnahmen?
  • Ist Experimentieren der Weg, um Ihre Kunden zu verstehen und ihnen während ihres gesamten Lebenszyklus einen Mehrwert zu bieten?
  • Oder ist das Experimentieren das Ziel an sich, wobei je besser Sie testen, desto verlässlichere Erkenntnisse gewinnen Sie und Ihre Verantwortung besteht darin, dieses Rad in Bewegung zu halten, ohne bestehende Erfahrungen negativ zu beeinflussen?

Mehr dazu später bei Ben Labay von Speero.

Von Experiment zu Experiment zementieren Metriken Ihren (echten) Fokus. Sie können ein 10-seitiges Manifest haben, in dem es darum geht, Experimente in die DNA Ihres Unternehmens einzubetten, um Innovationen zu beschleunigen, aber wenn Ihr Hauptziel immer auf Konversion ausgerichtet ist, dann ist Ihr Testprogramm im Wesentlichen ein CRO-Programm. Dies ist vielleicht das, was Sie erreichen möchten, aber seien Sie sich der Einschränkungen bewusst, die sich später manifestieren werden, einschließlich der Betrachtung von A/B-Tests als Akquise-/Umsatzdiener – ehrlich gesagt, das sind sie nicht.

Verschiedene Klassen von Metriken ermöglichen es, Indikatoren zu verfolgen, die für die C-Suite wichtig sind, während das Programm für qualitativ hochwertigere Tests, kausale Erkenntnisse und das Durchlaufen verschiedener Iterationen optimiert wird, um das Innenleben der Maschine zu verbessern, damit die Ergebnisse beginnen können, die Ergebnisse voranzutreiben auf Dauer.

Dieses Video mit Tim Mehta ist ein offener Blick darauf, warum eine experimentelle Erzählung, die sich ausschließlich um das Lernen dreht, keine praktische Haltung ist.

Ich denke, es ist wirklich cool, all diese Erkenntnisse auf der Seite des Engagements zu erhalten, aber damit Ihr Geschäftsinhaber Sie wissen kann, dass er weiterhin Ressourcen für das Programm aufbauen und Budget dafür erhalten muss, wissen Sie im Wesentlichen, dass Sie sicherstellen müssen, dass Sie es sind in der Lage, zumindest aus geschäftlicher Sicht den Dollarwert zu zeigen, den das Programm Ihnen bringt.

Ich denke also, dass es bei vielen Experimenten eher um die allgemeine wissenschaftliche Methode geht, bei der Sie nur lernen möchten, dass Sie wissen, dass es nicht so viel Gewinn / Verlust ist, wie es eine Hypothese bewiesen ist, ähm, Sie wissen, bewiesen oder abgelehnt wohingegen die meisten von uns mit dem, was wir gut machen, auf der Marketingseite tätig sind und wir natürlich in der Lage sein müssen, eine Art Gewinn oder Umsatzwert zu kommunizieren, um weitermachen zu können.

Tim Mehta, Direktor für Wachstumsmarketing bei Lucid Software

Auf einer praktischeren Ebene halten Metriken das Lernen. Flat-Tests hintereinander ausführen? Dies kann ein Problem mit der Art und Weise sein, wie Sie Daten sammeln (instrumentenorientiertes Problem) oder mit der Art und Weise, wie Sie Experimente entwerfen. Metriken helfen Ihnen, die Nadel im Heuhaufen zu finden und besser zu werden.

TL&DR; Metriken helfen Testern dabei, verschiedene Facetten von Experimenten zu erfassen und ihre Auswirkungen in einer Sprache, die sie verstehen, schätzen und schätzen, an die Beteiligten weiterzugeben. Die Metrikstrategie geht weit über „Ziele“ und den Einsatz im Boden hinaus, anhand dessen Gewinnvarianten und Verluste bewertet werden.

Durch Metriken leben Experimentierprogramme, reifen, entwickeln sich und sind erfolgreich (oder scheitern).

Input, Output & Outcome Metrics: Deconstructing Experimentation Programs mit Ben Labay und Alex Birkett

Es gibt viele Definitionen zu primären, sekundären und Leitplankenmetriken. Aber jeder, der ein Experimentierprogramm durchgeführt hat, weiß, dass es einen Rahmen geben muss, um die verschiedenen Zielebenen zu definieren.

Also haben wir Ben Labay, Geschäftsführer von Speero, und Alex Birkett, Mitbegründer von Omniscient, diese Frage gestellt:

Was ist Ihr bevorzugtes Metrik-Framework , um Variablen zuzuordnen, die den Auswirkungen mehrschichtiger Experimente gemessen werden?

Bens Framework

1. Programmmetrikkategorien

Ben Labay Speero Experimentation Program Messentwicklung

Dieses „stufenweise“ ist auf die leichte Schulter zu nehmen. Sie möchten all dies ständig überwachen, aber der FOCUS ist je nach Phase des Programms etwas anders.

2. Beginnen Sie mit einer metrischen Taxonomie der obersten Ebene, hier ist meine:

Metrik-Taxonomie-Diagramm Zielmetriken Treibermetriken Leitplankenmetriken von Ben Labay Speero

Dann für jeden

3. Beispiele für Zielmetriken:

Zielmetrikdiagramm Ben Labay Speero von CXL

Dann

4. Beispiele für Treibermetriken

Diagramm der Fahrermetriken Ben Labay Speero von CXL

Dann

5. Leitplankenmetriken programmieren

Leitplankenmetrikdiagramm Ben Labay Speero von CXL

So…. DANN haben Sie die Zutaten für eine metrische Strategie:

Metrik-Strategiediagramm Ben Labay Speero von CXL

Hinweis: Experimente in der Frühphase sollten sich auf die Eingabemetriken konzentrieren, aber Sie müssen mit dem Druck fertig werden, Ergebnisse zu erzielen, die nicht zustande kommen, wenn Sie nicht über die richtige Ausbildung, die richtigen Mitarbeiter und Prozesse verfügen.

Es ist ein selbstzerstörerischer Kreislauf. Außerdem sollten Ergebnismetriken nicht sofort gefeiert werden, besonders wenn Sie „Einnahmen“ prognostizieren.

Der beste Weg, dies zu verstehen, ist, sich anzusehen, wie Airbnb zu einer metrischen Strategie übergegangen ist:

„Gäste mussten die Gastgeber zuerst um Erlaubnis bitten, in ihrem Airbnb zu bleiben, und die Gastgeber konnten dann entscheiden, ob ihnen die Buchungsanfrage zusagte. Dies verursachte eine Menge Reibung, war eine schreckliche Erfahrung für die Gäste und öffnete die Tür für unangemessene Vorurteile, um in den Prozess einzusteigen.

Eine Produktversandstrategie hätte eine Reihe von Funktionen zum Versand vorgeschrieben. Aber Airbnb hat ein starkes Team mit einer metrischen Strategie zusammengestellt: Airbnb soll 100 % Sofortbuchung erreichen.

Das Ergebnis war eine experimentlastige Strategie, die den Markt kumulativ veränderte. Das Produkt ändert das Suchranking, das Onboarding von Gastgebern und die wichtigsten Gastgeberfunktionen (z. B. Gästesteuerung, Hausregeln, Vorlaufzeiteinstellungen usw.), die es Gastgebern ermöglichen, in einer Welt erfolgreich zu sein, in der Gäste ihr Zuhause sofort buchen.

Erik Bernhardson

Alex' Go-to-Framework

Mein Standard-Framework für die Abbildung von Experimentiermetriken ist einfach: Input- und Output-Metriken .

Stakeholder interessieren sich für Output-Metriken. Diese werden in ROI-Berechnungen verwendet und belegen den Wert des Programms – Dinge wie Website-Conversion-Rate, Funnel-Conversion-Rate, hochwertige Leads usw.

Ich persönlich denke, dass diese auf programmatischer Ebene überbewertet und auf pro-Experiment-Ebene unterschätzt werden. Damit meine ich, dass, wenn Sie die Konversionsrate Ihrer Webseiten von Quartal zu Quartal verfolgen, Experimente nicht das einzige sein werden, was in diesem Zeitraum passiert ist. Fundraising, makroökonomische Trends, Verlagerung von Akquisekanälen – all das können massive Störfaktoren sein. Sie können einige davon umgehen, indem Sie Holdback-Sets verwenden oder die Basisversion Ihrer digitalen Erfahrung erneut testen.

Sie werden pro Experiment unterschätzt, weil die Leute dazu neigen, ihre Kernexperiment-KPIs nicht zu durchdenken, sondern sich dafür entscheiden, eine Vielzahl von Zielen aufzunehmen und dasjenige auszuwählen, das zu ihrer Erzählung passt. Es ist wirklich schwierig, ein zusammengesetztes Ziel, ein allgemeines Bewertungskriterium zu finden, um Ihr Experiment zu definieren. Input-Metriken sind für mich eine bessere Möglichkeit, einen Eindruck von unserem Programm zu bekommen. Die drei wichtigsten, die ich mir ansehe, sind
a) Versuchsgeschwindigkeit
b) Versuchsgewinnrate und
c) durchschnittlicher Gewinn pro Experiment.

Wenn ich die Nadel bei einem dieser Punkte bewege, bewege ich wahrscheinlich auch die Nadel bei meinen Output-Metriken

Ziele, Treiber und Leitplanken: Metriken nach Umfang

Metrisches Taxonomiediagramm Speero von CXL

Ben Labay verwendet die Analogie eines Autos, um diese Kennzahlen zu erklären:

Der springende Punkt dabei ist, dass Sie langfristige Metriken wie Zielmetriken haben, und dies ist Ihr GPS oder Navigationssystem, dh die North Star Metriken (NSM).

Dies steht im Gegensatz zu Fahrermetriken, die die kurzfristigeren Metriken sind, auch bekannt als Ihr Tachometer. Zum Beispiel Conversion-Rate-Optimierung für den durchschnittlichen Bestellwert (AOV).

Setzen Sie dies in weiteren Kontrast zu Ihren Alarm- und Ausrichtungsmetriken, wie Ihrem Tachometer oder Ihrer Wärmeanzeige; Dies sind Ihre Leitplankenmetriken.

PS Sehen Sie sich dieses Video von Ben an, um diese Kategorien besser zu verstehen:

Ziel- oder North Star-Metriken

Eine North Star-Metrik oder eine verzögerte oder weitreichende Metrik, wie sie von Ben definiert wurde, ist eher strategischer als taktischer Natur.

Zum Beispiel sind die A/B-Tests von Netflix nicht darauf ausgelegt, das Engagement zu verbessern – sie wurden entwickelt, um die Bindung zu erhöhen. Wenn sie Kunden binden, bedeutet dies, dass Abonnenten sich mit dem Produkt beschäftigen und einen Wert darin finden. Die Aufbewahrung umfasst also mehrere taktische Metriken wie den Prozentsatz der Benutzer, die mehr als 3 Inhalte bezahlen oder ansehen.

Lesen Sie weiter: Der ultimative Leitfaden zur Verwendung von Zielen in A/B-Tests (und wie man Asse-Ziele umwandelt)

Fahrerkennzahlen

Auf diese Frühindikatoren konzentrieren Sie sich kurzfristig, dh Ihre Absprungrate und Konversionsrate. Manchmal reicht eine einzelne Metrik nicht aus, um ein Ergebnis zu bewerten. Hier kommt das Gesamtbewertungskriterium oder OEC ins Spiel.

OEC, auch bekannt als Antwort- oder abhängige Variable, Ergebnisvariable oder Leistungsmetrik, ist im Wesentlichen eine Kombination unterschiedlich gewichteter KPIs als ein einziger primärer KPI.

Eine einzige Metrik erzwingt einmalige Kompromisse für mehrere Experimente und richtet die Organisation auf ein klares Ziel aus. Ein guter OEC sollte nicht kurzfristig ausgerichtet sein (z. B. Klicks); im Gegenteil, es sollte Faktoren enthalten, die langfristige Ziele vorhersagen, wie z. B. den prognostizierten Lebenszeitwert und wiederholte Besuche.

Ronny Kohavi

Guardrail-Metriken

Laut Ronny Kohavi,

Guardrail-Metriken sind kritische Metriken, die Experimentatoren auf eine verletzte Annahme aufmerksam machen sollen. Leitplankenmetriken bieten das, was Spitzer (2007) die „Fähigkeit, informiertes Handeln anzuregen“ nennt. Wenn ein Behandlungseffekt eine Leitplankenmetrik unerwartet verschiebt, möchten Sie möglicherweise das Vertrauen in die Ergebnisse verringern oder ein Experiment in Fällen beenden, in denen Benutzern oder der Organisation Schaden zugefügt werden könnte.

Es gibt zwei Arten von Leitplankenmetriken: vertrauensbezogene Leitplankenmetriken und organisatorische Leitplankenmetriken. Wir beginnen mit dem, was unserer Meinung nach die wichtigste Leitplankenmetrik ist, die jedes Experiment haben sollte: Das Stichprobenverhältnis, dann folgen andere Leitplankenmetriken und organisatorische Leitplankenmetriken.

Stichprobenverhältnis = In einem kontrollierten Experiment entspricht das Stichprobenverhältnis dem Verteilungsverhältnis der Stichprobengröße zwischen den verschiedenen Testgruppen: Kontrolle und Varianten

Eine philosophische Interpretation von Metriken: Die 5 Ws

Sumantha Shankaranarayana, Gründerin von EndlessROI, sieht Metriken anders.

Der Wert von Metriken liegt in ihrer Fähigkeit, das Benutzerverhalten vorherzusagen. Bei der Interpretation von Metriken besteht das Ziel nicht darin, zu fragen: „Wie viele?“ sondern zu fragen „Warum so?“. Metriken sind eine Spur, die der Geist des Benutzers hinterlässt.

Philosophisch lassen sich Metriken in vier wesentliche Kategorien unterteilen:

Gruppe 1 – Betrag (das Wo und Wann)

  • Seitenaufrufe (einmalig und nicht einmalig)
  • Website-Besucher (neu und wiederkehrende)
  • Besuche
  • Gesamteinnahmen
  • Lebenslanger Wert
  • Kumulativer Warenkorbumsatz für eine Kohorte von Tests

Gruppe 2 – Natur (das Warum)

  • Ereignisverfolgung
  • Browser/Plattform
  • Zeit auf Seite
  • Transaktionsdetails
  • Seitenladefehler
  • Bildschirmauflösung
  • Seite verlassen

Gruppe 3 – Quelle (das Wer)

  • Referrer
  • Suchbegriffe
  • Land/ Sprachen
  • Organisationen
  • Top-Landingpages
  • Vorherige Seiten

Gruppe 4 – Ergebnisse (das Was)

  • Anmeldungen
  • Anzahl der Seitenaufrufe
  • Aufträge
  • Klicks
  • Versuche
  • Nächste Seiten
  • Benutzerbindung

Während wir Daten vergleichen und anfangen zu sehen, wie sich die Hypothese verhält, müssen wir alle Gültigkeitsbedrohungen berücksichtigen, wie z

  • historische Auswirkungen (Medienereignisse, Marketinginitiativen von Wettbewerbern, interne Marketinginitiativen, saisonale Veränderungen, wirtschaftliche Veränderungen),
  • Instrumentierungseffekt (Testaufbau mit Doppelsteuerung),
  • Selektionseffekt (unterschiedliche Konfidenz und Konfidenzintervalle für Kontrolle und Varianten) und
  • Stichprobenverzerrungseffekt (hohe Varianz, keine statistische Sicherheit).

    Basierend auf den oben genannten Kategorien könnte eine der Metriken eine primäre Metrik sein, z. B. Bestellungen (Conversion-Rate).

Ihre Schätzungen sollten basieren auf:

  1. Erfolgsquote – Aktuelle Trends bei der Konversionsrate
  2. Erhaltene Proben – Aktuelles Verkehrsaufkommen und geplante Anzahl von Behandlungen
  3. Der Betrag des Unterschieds in der Größe der primären Metrik zwischen der Kontrolle und der Variante und wie sich dies auf die Geschäftsziele auswirkt.

Nichtsdestotrotz soll das Sammeln von Daten aus Ihren sekundären Metriken bei der Interpretation eines Testergebnisses helfen.

Die Interpretation kann basieren auf:

  1. Der ROI des Tests
  2. Wichtige Erkenntnisse, die gesammelt werden, beantworten normalerweise Fragen wie:

    • Was sagt dieser Test über meine Kunden aus?
    • Was motiviert meine Kunden?
    • Wie reagieren sie auf bestimmte Elemente?
    • Was schätzen meine Kunden?
    • Was macht ihnen am meisten Angst?
    • Warum fallen sie an einem bestimmten Punkt ab?
    • Wo sind sie im Gespräch?
  3. Folgetests: Wo kann dieses Lernen noch hilfreich sein?

Ein wichtiger Hinweis: Das Testen von Elementen in einem frühen Stadium des Conversion-Prozesses ermöglicht mehr Traffic, und das Testen von Elementen im weiteren Verlauf des Conversion-Prozesses hat eine größere potenzielle Auswirkung auf den Umsatz. Daher sollten unsere Metriken basierend auf den Trichterphasen auch das Ziel widerspiegeln, das man erreichen möchte.

Lesen Sie weiter: 7 wichtige Schritte zum Lernen und Verbessern aus Ihren A/B-Testergebnissen

Eine weitere Interpretation von Metriken stammt von Avinash Kaushik, Digital Marketing Evangelist bei Google.

In einer kürzlich erschienenen Ausgabe seines Newsletters The Marketing <> Analytics Intersect empfiehlt er, Eitelkeitsmetriken wie Likes und Follower und falsche Götter wie Seitenaufrufe und „Engagement“ zu ignorieren.

Konzentrieren Sie sich stattdessen auf Mikroergebnisse wie Newsletter-Anmeldungen und Abschlussquoten von Aufgaben, digitale Makroergebnisse wie Konversionserlöse und Einnahmen sowie auf das Endergebnis beeinflussende Kennzahlen wie Gewinn und Lebenszeitwert.

Eine weitere Interpretation von Metriken kommt von Simon Girardin von Conversion Advocates:

Wenn Sie mit Metriken arbeiten, werden Sie sehen, wie sie miteinander in Beziehung stehen. Die meisten Treibermetriken sind Ergebnismetriken. Leitplanken werden oft mit Ausgabemetriken in Verbindung gebracht. Vielleicht möchten Sie Ihre Fahrer durch die 5 Ws laufen lassen, wenn Sie sich mit den Grundlagen der Auswahl von Metriken für Ihre Tests befassen. Wenn Sie die Grundlagen verstehen, können Sie mit Ihren Interpretationen kreativ werden.

Auswahl von Metriken, die einen Unterschied machen, mit einem Treiberbaum

Um eine solide Metrikstrategie zu entwickeln, müssen Sie verstehen, was ein Treiberbaum ist.

Ein Treiberbaum ist eine Karte, wie verschiedene Metriken und Hebel in einer Organisation zusammenpassen. Ganz links haben Sie eine übergreifende Metrik, die Sie steuern möchten. Dies ist das ultimative Ziel, auf das alle Teams hinarbeiten sollen.

Ein Treiberbaum ist eine Karte, wie verschiedene Metriken und Hebel in einer Organisation zusammenpassen
Quelle

Wenn Sie sich nach rechts bewegen, werden Sie genauer, wie Sie dieses Ziel erreichen möchten. Jeder Zweig gibt Ihnen einen Indikator für die Bestandteile, aus denen das „Was“ darüber besteht.

Curtis Stanier, Produktdirektor bei Delivery Hero

Der Treiberbaum kann in Kombination mit Metriken dabei helfen, potenzielle Chancenbereiche zu identifizieren und Sie zur Lösung zu führen.

Curtis erklärt dies an einem Beispiel. Zum Beispiel, wenn Ihr Ziel darin besteht, die Anzahl der E-Mail-Anmeldungen zu erhöhen. Nehmen wir an, nur die Hälfte der Kunden klickt erfolgreich auf den E-Mail-Bestätigungslink, den Sie ihnen gesendet haben. Hier gibt es zwei mögliche Szenarien: Entweder erhalten Kunden die E-Mail nicht oder sie klicken nicht darauf. Diese Treiber können unterschiedliche Einflussfaktoren haben.

Wenn Sie den Prozessfluss auf den Treiberbaum abbilden, können Sie der Ursache auf den Grund gehen. Vielleicht hat der von Ihnen verwendete E-Mail-Anbieter eine Fehlerquote von 10 %, was bedeutet, dass die E-Mail nie gesendet wurde. Dieses spezifische Problem wird zu einer Gelegenheit für Ihr Team, es zu beheben.

Beispiel eines metrischen Treiberbaums von Curtis Stanier Delivery Hero
Quelle

Hier ist ein spezifisches Beispiel mit freundlicher Genehmigung von Bhavik Patel, Head of Product Analytics bei Hopin, um zu veranschaulichen, wie Sie ein Ziel wie die Testgeschwindigkeit, dh die Anzahl der durchgeführten Tests, den Treiber- und Leitplankenmetriken zuordnen können.

Metrischer Treiberbaum von Bhavik Patel Hopin
Quelle

Befolgen Sie diese 3 Schritte, um Ihr Experimentierprogramm zu starten

1. Wählen Sie das Ziel Ihres Experimentierprogramms

Beziehen Sie die HiPPO, auch bekannt als Ihre C-Suite, mit ein, damit Sie nicht einer North Star-Metrik nachjagen, an der die Führung desinteressiert ist. Andernfalls wird Ihr Experimentierprogramm nie das Licht der Welt erblicken. Schließen Sie Leute ein, die verstehen, dass große Probleme innovative Lösungen brauchen, und gehen Sie nicht auf Nummer sicher.

Als Faustregel sagt Ben Labay, dass das verzögerte, langfristige Ziel Ihres Experimentierprogramms eines von drei Dingen sein kann – Umsatz, Kunde oder Experimentierprozess .

Zielkennzahlen Umsatz, Kunde oder Experimentierprozess von Ben Labay Speero

Booking.com hat zum Beispiel die Testqualität als Nordstern-Metrik. Hier ist der Grund:

Was für uns wirklich zählt, ist nicht, wie viele Produktentscheidungen getroffen werden oder wie schnell Entscheidungen getroffen werden, sondern wie gut diese Entscheidungen sind.

Während das Experimentieren als Teil der Produktentwicklung und Entscheidungsfindung heutzutage gängige Praxis ist, garantiert es allein nicht, dass gute Entscheidungen getroffen werden. Die korrekte Durchführung von Experimenten kann schwierig sein, und die aus einem Experiment gewonnenen Daten sind nur so zuverlässig wie die Durchführung des Experiments selbst. Schlechte Experimente durchzuführen ist nur eine sehr teure und komplizierte Methode, um unzuverlässige Entscheidungen zu treffen.

Christophe Perrin, Group Product Manager bei Booking.com

Lesen Sie weiter: Der ultimative Leitfaden zur Verwendung von Zielen in A/B-Tests (und wie man Asse-Ziele umwandelt)

2. Erstellen Sie ein Protokoll akzeptabler Guardrail-Metriken

Tim Mehta empfiehlt, die Testgeschwindigkeit als Leitplankenmaß mit einer Einschränkung zu verwenden, dh nur, wenn die Integrität Ihres Tests gut ist oder dem Standard entspricht. Wenn Sie keine Qualitätstests durchführen, wird jede von Ihnen gewählte Metrik zu einer Eitelkeitsmetrik.

Wie Tim schlägt auch Ben Labay vor, die Testgeschwindigkeit zusammen mit diesen anderen Metriken als funktionierende Leitplankenmetriken zu verwenden:

Experimentation Guardrail Metrics von Ben Labay Speero
Quelle

3. Wählen Sie Ihre Treibermetriken von Fall zu Fall aus

Nicht alle Metriken sind gute Metriken. Nach Tausenden von A/B-Tests hat Microsoft sechs Schlüsseleigenschaften einer guten A/B-Metrik identifiziert:

  1. Empfindlichkeit
  2. Vertrauenswürdigkeit
  3. Effizienz
  4. Debuggbarkeit
  5. Interpretierbarkeit und Umsetzbarkeit
  6. Inklusivität und Fairness

Sie können STEDII verwenden, um zu verfeinern, welche Metriken nachverfolgt und Änderungen gemessen werden sollen.

Microsofts STEDII-Checkliste zum Erstellen guter Metriken
Quelle

Max Bradley, Senior Web Optimization Manager bei Zendesk, ist der Meinung, dass Sie bei Treibermetriken flexibel sein sollten, damit Sie innerhalb oder außerhalb der Box denken können:

Wir haben festgestellt, dass das Feld zur Subdomain-Erstellung (siehe unten) bei weitem das herausforderndste Formularfeld in unserem Testregistrierungsablauf für Besucher war. Die Drop-off-Rate in diesem Bereich war erheblich höher als in jedem anderen Bereich.

Subdomain-Erstellungsfeld

Entscheidend war, dass wir ein Tracking eingerichtet hatten, das es uns ermöglichte, die Leistung des Formulars überhaupt erst im Detail zu untersuchen. Wenn Sie anfangen, ist es unwahrscheinlich, dass dieses Tracking-Niveau kurzfristig erreicht werden kann, aber ich würde dazu ermutigen, mit Ihrem Tracking im Laufe der Zeit „ins Unkraut zu gehen“.

Nachdem das Problem identifiziert wurde, haben wir verschiedene Schritte unternommen, um den Ansatz festzulegen, den wir testen wollten. Wir haben uns angesehen, was andere Unternehmen getan haben, bei denen eine Subdomain involviert war. Ich würde vorschlagen, hier nicht nur auf Ihre Konkurrenten zu schauen. Wir waren der Meinung, dass sich der Benutzer nicht mit der Erstellung einer Subdomain befassen muss, es führt einen weiteren Bereich ein, in dem der Benutzer innehalten und nachdenken kann, was seine kognitive Belastung erhöht. Wir können ihre Subdomain aus ihrem Firmennamen erstellen, den sie bereits angegeben haben, und das Subdomain-Feld vor Benutzern verbergen.

Wir haben natürlich erwartet, dass diese Änderung die Anzahl der Benutzer erhöhen würde, die sich erfolgreich für eine Testversion anmelden, wir konnten den erwarteten Anstieg aufgrund des erwähnten Trackings abschätzen.

Was wir zu diesem Zeitpunkt jedoch nicht wussten, waren die Gesamtauswirkungen, die dies auf das Geschäft haben würde. Wir haben mit einem Anstieg der Test-Conversions gerechnet, aber würde sich dies bis zum Ende des Funnels in Win umwandeln?

Darüber hinaus wollten wir durch das Ausblenden des Subdomain-Felds und die automatische Generierung der Subdomain für den Benutzer sicherstellen, dass wir dieses Problem nicht einfach auf einen anderen Bereich des Unternehmens übertragen. Dazu gehörte von Anfang an, dass die Kundenvertretung und der Kundensupport einbezogen wurden.

Die Hauptbereiche, die wir für wichtig hielten, um die Auswirkungen dieses Experiments zu bestimmen, waren die folgenden:

  • Testregistrierungsrate für Besucher des Formulars
  • Leads, MQLs, Chancen und Gewinne
  • Änderungen, die von Benutzern am Subdomain-Namen in der Produkt-Post-Registrierung vorgenommen wurden
  • Anzahl der von der Kundenvertretung erhaltenen Tickets für Änderungen des Subdomain-Namens.“

Basierend auf dem von Ihnen gewählten Ziel und Ihrer konsequenten Herangehensweise an Ihre Fahrer können Ihre Experimentierpersönlichkeit und Ihr Programmverlauf verschiedene Wege gehen. Schauen Sie sich diese Grafik von Ben Labay an:

Metrische Strategie von Ben Labay Speero

Mentale Modelle: Wie Profis ihre Metriken in realen Experimenten auswählen

Wir haben Experten gebeten, uns durch ein Beispiel zu führen, in dem sie das Problem gesehen, die Hypothese entworfen und dann die Metriken ausgewählt haben, um den Erfolg zu messen und das Lernen zu konsolidieren.

Hier ist, was sie sagten:

Ben Labay und Goal Mapping

Machen Sie sich klar, wohin das Geschäft geht und warum.

Was ist die Business-Wachstumsstrategie? Wachsen sie nächstes Jahr um 20 %, indem sie mehr Benutzer gewinnen? Werden sie sich auf neue Produkte oder die Monetarisierung der bestehenden Benutzerbasis konzentrieren? Mit diesen Informationen wissen Sie, wo Sie das Optimierungsprogramm ausrichten müssen, Sie sollten wissen, wo im Trichter oder auf welche primären Kanäle Sie sich konzentrieren müssen.

Für viele E-Commerce-Unternehmen im Jahr 2021 war es die Akquise und Umwandlung neuer Benutzer. Ende 2022 ist es AOV-zentriert, das sich auf Rentabilität und Akquisitionseffizienz konzentriert.

  • Bei SaaS gab es in den letzten Jahren ein Muster der Konzentration auf produktgesteuertes Wachstum, also einen Fokus auf Versuche und Onboarding, insbesondere für rückläufige Marktsegmente.

Verschaffen Sie sich ein klares Verständnis des Kundenverhaltens (Ausstiege, Navigationsmuster usw.) und Wahrnehmungen (Motivationen vs. FUDs, Ängste, Unsicherheiten und Zweifel).

Wir haben dazu ein großartiges Datenmodell, ResearchXL, das nicht nur Daten zu Verhaltensweisen und Wahrnehmungen sammelt, sondern die Daten durch Informationen zu Erkenntnissen führt, die eine priorisierte Roadmap erstellen.

Research XL-Datenmodell des Kundenverhaltens

Kombinieren Sie die Schritte 2 und 3 und verbinden Sie die Probleme/Chancen-Themen, die Sie aus der Kundenrecherche erstellen, mit den Geschäftszielen in der Zielbaumkarte.

ResearchXL-Problem-Chancen-Datenmodell

Hier ist eine Nahaufnahme dieser Zielbaumkarte, in der Sie die Experimente sehen können, die mit einer Fortschrittsmetrik der Checkout-Seite verbunden sind, die für diesen E-Commerce-Kunden im Mittelpunkt stand:

Beispiel einer ResearchXL-Zielbaumkarte für einen E-Commerce-Client

Lesen Sie weiter: Wie arbeitet man mit A/B-Test-Tools für den Optimierungserfolg? Die 6 wichtigsten Faktoren erklärt

Als ich bei Workato war, wollten wir so viel wie möglich über den Aufbau einer interaktiven Produkttour lernen. Da wir keine Freemium-Version hatten, wollten viele Interessenten einen Eindruck davon bekommen, wie das Produkt tatsächlich funktioniert.

Was wir zu erfahren hofften, bestimmte den KPI für jedes Experiment hier.

In einem Experiment wollten wir nur sehen, ob die Leute im Gegensatz zu anderen zentralen Website-CTA-Buttons wie „Demo anfordern“ überhaupt an dem Konzept einer Produkttour interessiert sind. Dies war eine Art „gemalte Tür“-Test, obwohl wir eigentlich schon eine Minimum Viable Product Tour aufgebaut hatten. In diesem Experiment haben wir nur den Anteil der Klicks an der Produkttour verfolgt und ein Nichtunterlegenheitsexperiment mit Leads durchgeführt (wir wollten nur nicht, dass sie fallen).

Dann haben wir bei der Optimierung der Tour selbst den wichtigsten Makro-KPI der Website-Conversion-Rate (Leads) verwendet und diejenigen segmentiert, die auf die Produkttour geklickt haben, um zu sehen, ob es auch eine hohe Korrelation sowie eine Makroverbesserung in unserem Kern-KPI gibt .“

Wie Deborah O' Malley dazu beigetragen hat, die CTR zu steigern

Metriken sind oft clientgesteuert. Normalerweise sind sie an Einnahmen gebunden. Manchmal möchten Kunden jedoch einfach nur das Engagement erhöhen.

In diesem Beispiel wollte ein Kunde aus dem Bildungssektor die Klickraten (CTRs) von einer Seite mit Erläuterungen zu einem Bildungsprogramm auf eine Seite erhöhen, auf der potenzielle Studenten mehr über das Programm erfahren und sich dafür bewerben können.

Basierend auf einer datengesteuerten Analyse war die Hypothese, dass es so viele konkurrierende Informationen auf der Seite gab, dass die Benutzer nicht wussten, wie sie fortfahren oder wo sie klicken sollten, um mehr zu erfahren.

Bei der Anwendung des oben beschriebenen 5-Schritte-Rahmens wurde entschieden, dass ein optimal formatiertes und zeitgesteuertes Pop-up oder eine Slide-in-Benachrichtigung am besten funktionieren würde, um Besucher darüber zu informieren, wo sie klicken müssen, um mehr zu erfahren.

Daher wurde eine Reihe von Experimenten durchgeführt, um das optimale Format und Timing eines Benachrichtigungs-Popups zu bestimmen. Klickraten wurden gemessen.

Wie diese Fallstudienergebnisse zeigen (Test 1, Test 2), hatte die Optimierung der Platzierung und des Timings des Pop-ups einen enorm positiven Einfluss auf die CTR-Conversions.

Obwohl sich die Ergebnisse als positiv herausstellten, waren die eingereichten Bewerbungen letztendlich die Metrik, die die Nadel für die Schule wirklich bewegte. Daher müssen zusätzliche Tests durchgeführt werden, um den optimalen Weg zur Steigerung der Antragseinreichungen zu ermitteln.

Die wichtigste Erkenntnis aus diesem Beispiel ist, dass Kunden oft eine Vorstellung davon haben, was sie verbessern möchten. Als Experimentator ist es Ihre Aufgabe, ihre Erwartungen zu erfüllen, aber noch weiter zu gehen. Erhöhte CTRs sind nett. Versuchen Sie jedoch, die Conversions tiefer im Trichter zu steigern. Gehen Sie so weit wie möglich nach unten in die Metriken zum Geldverdienen im letzten Trichter, wie abgeschlossene Bewerbungen oder Bezahlvorgänge. Messen Sie die Abschlüsse und quantifizieren Sie Ihren Erfolg.

Warum Justin Christianson sekundäre Datenpunkte hinzufügt

Wir richten unsere Ziele an Zielen aus. Sie können nicht nur an Umsatz und Umsatz denken. Im Allgemeinen werden unsere primären Metriken sowohl Verkaufskonvertierungen als auch RPV sein, aber das zeichnet nicht immer das beste Bild davon, wie die Besucher interagieren.

Dafür setzen wir gerne sekundäre Datenpunkte wie zum Warenkorb hinzufügen, Elementklicks, Besuche auf bestimmten Seiten wie dem Warenkorb oder der Kasse. Die sekundären Ziele ändern sich leicht je nach Seite oder Testtyp. Manchmal sind Verkäufe und Einnahmen nicht das, was Sie in Bezug auf das Ergebnis erreichen möchten.

Wir nutzen unsere Experimente, um wirklich zu verstehen, was die Besucher interessiert, welche Elemente in der gesamten UX Gewicht haben und dann die Strategie auf der Grundlage dieser Ergebnisse entwickeln. Unsere Hypothese stellt generell immer die Frage, warum oder was in der Situation. Es könnte etwas so Einfaches sein wie das Verschieben eines Abschnitts auf einer Homepage, dann wären unsere Ziele Klicks auf diesen Abschnitt, Verkäufe, Einnahmen, Besuche auf Produktseiten. Wie man die Daten dann interpretieren würde, wäre, wenn die Besucher durch das Verschieben des Abschnitts ein höheres Engagement zeigten, dieser Abschnitt Gewicht hat, weshalb die Besucher diesen Gesamtpfad bevorzugen. Ein Beispiel hierfür wäre die Darstellung einer Sammlungsaufschlüsselung im Vergleich zur Anzeige tatsächlicher Produktblöcke auf einer Seite für einen E-Commerce-Shop.

Lesen Sie weiter: Sie brauchen ein A/B-Test-Lern-Repository, um erfahrungsbasierte Experimente durchzuführen (Experten sagen)

CXO: Der Gipfel des Erlernens erster Experimente?

Die Konversionsrate ist keine Eitelkeitsmetrik. Es ist jedoch ein enger Begriff geworden.

Annika Thompson, Leiterin des Kundendienstes bei Speero

Das Problem, erklärt Annika, ist nicht, dass CRO unwichtig ist, sondern dass es eine Menge Ballast mit sich bringt. Es ist nur eine Momentaufnahme und ohne Kontext kann es irrelevant und geradezu gefährlich sein.

Auf der anderen Seite konzentriert sich CXO oder Optimierung des Kundenerlebnisses auf die Gewinnung qualitativ hochwertiger Erkenntnisse über Kundenpräferenzen und -verhalten – von Experimenten zur Zerstörung von Konversionsblöcken bis hin zu robusten Geschäftsstrategien. Es ist einfach mehr Knall für Ihr Testgeld.

CRO-Meister
CRO-Meister