All die verschiedenen Arten von Tests, die Sie auf Ihrer Website ausführen können (+ wann Sie sie ausführen sollten)

Veröffentlicht: 2022-09-20
All die verschiedenen Arten von Tests, die Sie auf Ihrer Website ausführen können (+ wann Sie sie ausführen sollten)

Die Welt des Experimentierens hat sich größtenteils über einfache Farb-A/B-Tests für Schaltflächen hinaus bewegt.

Sie haben vielleicht ihren Platz in dem Portfolio der von Ihnen durchgeführten Experimente, aber hoffentlich sind sie an dieser Stelle nicht gleichbedeutend mit Experimentieren oder CRO.

Experimentieren kann so viel größer sein.

Mithilfe verschiedener Arten von Experimenten können wir die Varianz auf unseren Websites kennenlernen, neuartige Erfahrungen testen, neue Seitenpfade aufdecken, große Sprünge oder kleine Schritte machen und die optimale Kombination von Elementen auf einer Seite identifizieren.

Was Sie von einem Experiment zu lernen hoffen, sollte sich in seinem Design widerspiegeln, und das Design von Experimenten geht weit über das einfache Testen von A gegen B unter Verwendung einer konkreten Hypothese hinaus.

Tatsächlich gibt es ein ganzes Untergebiet, das als Design of Experiments (DoE) bekannt ist und sich damit befasst.

ausblenden
  • Design of Experiments: eine Einführung in das experimentelle Design
  • 16 gängige Arten von Experimenten
    • 1. A/A-Test
    • 2. Einfacher A/B-Test
    • 3. A/B/n-Test
    • 4. Multivariater Test
    • 5. Targeting-Test
    • 6. Banditentest
    • 7. Evolutionäre Algorithmen
    • 8. Split-Page-Path-Test
    • 9. Existenztest
    • 10. Lackierte Türtest
    • 11. Entdeckungstest
    • 12. Iterativer Test
    • 13. Innovationstest
    • 14. Nichtunterlegenheitstest
    • 15. Feature-Flag
    • 16. Quasi-Experimente
  • Fazit

Design of Experiments: eine Einführung in das experimentelle Design

Design of Experiments (DoE) ist eine wissenschaftliche Methode zur Bestimmung der Beziehung zwischen Faktoren, die einen Prozess beeinflussen, und dem Ergebnis dieses Prozesses.

Versuchsplanung
Bildquelle

Design of Experiments ist ein Konzept, das vom Statistiker Ron Fisher in den 1920er und 1930er Jahren populär gemacht wurde.

DoE ermöglicht es uns zu verstehen, wie sich verschiedene Eingabevariablen auf eine Prozessausgabe auswirken, indem wir die Eingaben systematisch ändern und die resultierenden Änderungen der Ausgabe beobachten. Dieser Ansatz kann verwendet werden, um einen Prozess zu optimieren, neue Produkte oder Funktionen zu entwickeln oder um zu erfahren, welche Elemente am besten miteinander harmonieren.

Im Marketing verwenden wir DoE, um besser zu verstehen, wie verschiedene Elemente auf einer Seite (die Faktoren) die Konversionsraten (den Output) beeinflussen. Indem wir Experimente effektiv gestalten, können wir feststellen, welche Elemente den größten Einfluss auf die Conversion-Raten haben.

Es gibt viele verschiedene Arten von Experimenten, und jede Art kann verwendet werden, um verschiedene Dinge über Ihre Website oder App zu erfahren.

In diesem Artikel werde ich 16 Arten von Experimenten behandeln.

Nitpicker mögen anmerken, dass dies nicht alle grundlegend unterschiedliche experimentelle Designs sind; Einige sind vielmehr unterschiedliche „Typen“, je nachdem, wie Sie Ihre Hypothese generieren oder welche Rahmenbedingungen Ihren Gründen für die Durchführung des Experiments zugrunde liegen.

Einige sind außerdem nicht wirklich „Experimente“, sondern vielmehr Optimierungsregeln, die auf Modellen des maschinellen Lernens basieren.

Dennoch hat jede der folgenden Methoden einen bestimmten Zweck und kann als einzigartiges Werkzeug im Werkzeugkasten eines Experimentators betrachtet werden.

16 gängige Arten von Experimenten

Es gibt viele verschiedene Arten von kontrollierten Experimenten, die Sie auf Ihrer Website durchführen können, aber hier sind 16 der häufigsten:

1. A/A-Test
2. Einfacher A/B-Test
3. A/B/n-Test
4. Multivariater Test
5. Targeting-Test
6. Banditentest
7. Evolutionäre Algorithmen
8. Split-Page-Pfad-Test
9. Existenzprüfung
10. Lackierte Türtest
11. Entdeckungstest
12. Inkrementeller Test
13. Innovationstest
14. Nichtunterlegenheitstest
15. Feature-Flag
16. Quasi-Experimente

1. A/A-Test

Tests, die auf Ihrer Website ausgeführt werden sollen A/A-Test

Ein A/A-Test ist ein einfaches Konzept: Sie testen zwei Versionen einer Seite, die identisch sind.

Wieso würdest du das machen?

Es gibt eine Reihe von Gründen, hauptsächlich um die Kalibrierung und das Verständnis der zugrunde liegenden Daten, des Benutzerverhaltens und der Randomisierungsmechanismen Ihres Testtools zu verfolgen. A/A-Tests können Ihnen helfen:

  • Bestimmen Sie den Grad der Varianz in Ihren Daten
  • Identifizieren Sie Stichprobenfehler in Ihrem Testtool
  • Legen Sie grundlegende Konversionsraten und Datenmuster fest.

Die Durchführung von A/A-Tests ist seltsam umstritten. Manche schwören darauf. Manche sagen, es ist Zeitverschwendung.

Meine Aufnahme? Aus all den oben genannten Gründen lohnt es sich wahrscheinlich, mindestens einmal einen zu betreiben. Ein weiterer Grund, warum ich es LIEBE, A/A-Tests durchzuführen, ist, Testanfängern Statistiken zu erklären.

Wenn Sie jemandem ein „bedeutendes“ Experiment mit zwei Tagen gesammelter Daten zeigen, nur um später zu enthüllen, dass es sich um einen A/A-Test handelt, verstehen die Beteiligten normalerweise, warum Sie ein Experiment bis zum Ende durchführen sollten.

Wenn Sie mehr über A/A-Tests lesen möchten (es ist eigentlich ein riesiges Thema), hat Convert eine ausführliche Anleitung dazu.

Anwendungsfälle: Kalibrierung und Bestimmung von Datenvarianzen, Prüfung von Fehlern auf Experimentierplattformen, Bestimmung der Baseline-Konversionsrate und Stichprobenanforderungen.

2. Einfacher A/B-Test

Tests, die auf Ihrer Website ausgeführt werden sollen A/B-Test

Jeder weiß, was ein einfacher A/B-Test ist: Sie testen zwei Versionen einer Seite, eine mit Änderung und eine ohne.

A/B-Tests sind das A und O des Experimentierens. Sie sind einfach einzurichten und leicht zu verstehen, können aber auch zum Testen großer Änderungen verwendet werden.

A/B-Tests werden am häufigsten verwendet, um Änderungen an einer Benutzeroberfläche zu testen, und das Ziel eines einfachen A/B-Tests besteht fast immer darin, die Konversionsrate auf einer bestimmten Seite zu verbessern.

Die Konversionsrate ist übrigens eine generische Metrik, die alle möglichen Größenverhältnisse abdeckt, wie z. B. die Aktivierungsrate neuer Produktbenutzer, Monetarisierungsraten von Freemium-Benutzern, Lead-Konversionsraten auf der Website und Klickraten.

Bei einem einfachen A/B-Test haben Sie eine einzelne Hypothese und ändern ein Element nach dem anderen, um so viel wie möglich über die kausalen Elemente Ihrer Änderung zu erfahren. Dies könnte so etwas wie eine Änderung der Überschrift, eine Änderung der Schaltflächenfarbe oder -größe, das Hinzufügen oder Entfernen eines Videos oder wirklich alles sein.

A/B-Test-Illustration

Wenn wir von „A/B-Test“ sprechen, verwenden wir meistens einen allgemeinen Begriff, der die meisten anderen Testtypen umfasst, die ich in diesem Beitrag auflisten werde. Es wird normalerweise als Überbegriff verwendet und bedeutet: „Wir haben *etwas* geändert – große, kleine oder viele Elemente – um eine Metrik zu verbessern.“

Anwendungsfälle: Viele! Normalerweise, um eine einzelne Änderung an einer digitalen Erfahrung zu testen, die auf einer konkreten Hypothese basiert. A/B-Tests werden in der Regel mit der Absicht durchgeführt, eine Metrik zu verbessern, aber auch, um etwas über Änderungen im Benutzerverhalten zu erfahren, die durch die Intervention auftreten.

3. A/B/n-Test

A/B/n-Test

A/B/n-Tests sind A/B-Tests sehr ähnlich, aber anstatt zwei Versionen einer Seite zu testen, testen Sie mehrere Versionen.

A/B/n-Tests ähneln in gewisser Weise multivariaten Tests (auf die ich als Nächstes eingehen werde). Ich würde dies jedoch eher als einen „multivariaten“ Test als einen multivarianten Test betrachten.

Multivariate Tests sind nützlich, um die Beziehungen zwischen verschiedenen Elementen auf einer Seite zu verstehen. Wenn Sie beispielsweise verschiedene Überschriften, Bilder und Beschreibungen auf einer Produktseite testen und auch sehen möchten, welche Kombinationen am besten zu interagieren scheinen, würden Sie einen multivariaten Test verwenden.

A/B/n-Tests sind nützlich, um mehrere Versionen eines einzelnen Elements zu testen, und interessieren sich nicht so sehr für Interaktionseffekte zwischen Elementen.

Wenn Sie beispielsweise drei verschiedene Überschriften auf einer Landingpage testen möchten, würden Sie einen A/B/n-Test verwenden. Oder Sie könnten einfach sieben völlig unterschiedliche Versionen der Seite testen. Es ist nur ein A/B-Test mit mehr als zwei getesteten Erfahrungen.

A/B/n-Tests sind eine gute Wahl, wenn Sie viel Verkehr haben und mehrere Varianten effizient testen möchten. Natürlich müssen die Statistiken für mehrere Varianten korrigiert werden. Es wird auch viel darüber diskutiert, wie viele Varianten man in einen A/B/n-Test aufnehmen sollte.

Oft können Sie einige originellere und kreativere Varianten durchsetzen, wenn Sie mehrere Erfahrungen gleichzeitig testen, anstatt iterativ über mehrere einfache A/B-Tests hinweg.

Anwendungsfall: Wenn Sie über den verfügbaren Traffic verfügen, eignen sich mehrere Varianten hervorragend, um eine breite Palette von Erfahrungen oder mehrere Iterationen eines Elements zu testen.

4. Multivariater Test

multivariater oder MVT-Test

Ein multivariater Test ist ein Experiment mit mehreren Änderungen. Während ein A/B/n-Test die zusammengesetzten Versionen jeder Variante gegeneinander testet, zielt ein multivariater Test auch darauf ab, die Interaktionseffekte zwischen den getesteten Elementen zu bestimmen.

Stellen Sie sich zum Beispiel vor, Sie gestalten eine Homepage neu. Sie haben Conversion-Recherchen durchgeführt und Klarheitsprobleme mit Ihrer Überschrift aufgedeckt, aber Sie haben auch einige Hypothesen zum Grad des Kontrasts und der Klarheit in Ihrem CTA.

Sie sind nicht nur daran interessiert, jedes dieser beiden Elemente isoliert zu verbessern, sondern die Leistung dieser Elemente hängt wahrscheinlich auch davon ab. Daher möchten Sie sehen, welche Kombination aus neuen Überschriften und CTAs am besten funktioniert.

Multivariate Testabbildung

Das Experimentdesign wird viel komplizierter, wenn Sie multivariates Gebiet betreten. Es gibt einige verschiedene Arten von multivariaten Versuchsaufbauten, darunter vollfaktorielles Design, teil- oder fraktioniertes faktorielles Design und Taguchi-Tests.

Und nur als eine Frage des statistischen gesunden Menschenverstands erfordern multivariate Tests mit ziemlicher Sicherheit mehr Verkehr als einfache A/B-Tests. Jedes zusätzliche Element oder Erlebnis, das Sie ändern, erhöht die Menge an Traffic, die Sie für ein gültiges Ergebnis benötigen.

Anwendungsfälle: Multivariate Experimente scheinen besonders vorteilhaft für die Optimierung einer Erfahrung zu sein, indem mehrere kleine Variablen optimiert werden. Wann immer Sie die optimale Kombination von Elementen ermitteln möchten, sollten multivariate Tests in Betracht gezogen werden.

5. Targeting-Test

Targeting-Test

Bei Targeting-Tests, besser bekannt als Personalisierung, geht es darum, der richtigen Person zur richtigen Zeit die richtige Botschaft zu zeigen.

Mit einem Targeting-Test können Sie verschiedene Versionen einer Seite erstellen und jede Version einer anderen Personengruppe zeigen. Das Ziel besteht normalerweise darin, die Konversionsraten zu erhöhen, indem jedem Benutzer relevante Inhalte angezeigt werden.

Beachten Sie, dass Personalisierung und Experimentieren keine Synonyme sind. Sie können ein Erlebnis personalisieren, ohne es als Experiment zu behandeln. Beispielsweise können Sie ohne Daten oder mit der Absicht, Daten zu sammeln, entscheiden, dass Sie in Ihren E-Mails ein Vornamen-Token verwenden, um Nachrichten mit dem Namen des Empfängers zu personalisieren.

Personalisierung? Ja. Experimentieren? Nein.

Sie können aber auch Experimente durchführen, die auf bestimmte Benutzersegmente abzielen. Dies ist besonders häufig bei Produktexperimenten der Fall, bei denen Sie Kohorten basierend auf ihrer Preisstufe, Anmeldezeit, Anmeldequelle usw. isolieren können.

Dieselben Statistiken gelten für Personalisierungsexperimente, daher ist es wichtig, aussagekräftige Segmente für das Targeting auszuwählen. Wenn Sie zu granular vorgehen – sagen wir, Sie zielen auf mobile Chrome-Benutzer in ländlichen Gebieten in Kansas ab, die zwischen 5 und 6 Sitzungen haben – ist es nicht nur unmöglich, die Auswirkungen statistisch zu quantifizieren, sondern es ist auch unwahrscheinlich, dass es sich um bedeutende Auswirkungen auf das Geschäft handelt.

Personalisierung wird normalerweise als natürliche Erweiterung einfacher A/B-Tests betrachtet, aber in vielerlei Hinsicht bringt sie eine Menge neuer Komplexität mit sich. Für jede neue Personalisierungsregel, die Sie verwenden, haben Sie ein neues „Universum“ geschaffen, das Ihre Benutzer verwalten, aktualisieren und optimieren können.

Vorhersagende Personalisierungstools helfen Ihnen dabei, Zielsegmente sowie Erfahrungen zu identifizieren, die mit ihnen besser zu funktionieren scheinen. Andernfalls werden Personalisierungsregeln häufig durch Segmentierung nach dem Test identifiziert.

Anwendungsfälle: Isolieren Sie Behandlungen für bestimmte Segmente Ihrer Benutzerbasis.

6. Banditentest

Was ist ein Banditentest?

Ein Banditentest oder die Verwendung von Banditenalgorithmen ist ein bisschen technisch. Aber im Grunde unterscheiden sie sich von A/B-Tests dadurch, dass sie ständig dazulernen und ändern, welche Variante den Nutzern angezeigt wird.

A/B-Tests sind in der Regel „Fixed Horizon“-Experimente (mit der technischen Einschränkung, sequenzielle Tests zu verwenden), was bedeutet, dass Sie einen Testzeitraum vorab festlegen, wenn Sie den Test durchführen. Nach Abschluss entscheiden Sie, ob Sie entweder die neue Variante einführen oder zum Original zurückkehren möchten.

Banditentests sind dynamisch. Sie aktualisieren ständig die Zuordnung des Datenverkehrs zu jeder Variante basierend auf ihrer Leistung.

Die Theorie geht so: Sie gehen in ein Casino und stolpern über mehrere Spielautomaten (mehrarmige Banditen). Unter der Annahme, dass jede Maschine unterschiedliche Belohnungen hat, hilft das Banditenproblem, „zu entscheiden, welche Maschinen gespielt werden sollen, wie oft jede Maschine gespielt werden soll und in welcher Reihenfolge sie gespielt werden sollen und ob mit der aktuellen Maschine fortgefahren oder eine andere Maschine ausprobiert werden soll“.

Der Entscheidungsprozess ist hier unterteilt in „Erkundung“, bei der Sie versuchen, Daten und Informationen zu sammeln, und „Ausbeutung“, die dieses Wissen nutzt, um überdurchschnittliche Belohnungen zu erzielen.

Ein Bandit-Test auf einer Website würde also versuchen, in Echtzeit die optimale Variante zu finden, und mehr Verkehr zu dieser Variante leiten.

Anwendungsfälle: kurze Experimente mit hoher „Vergänglichkeit“ (was bedeutet, dass die Erkenntnisse aus den Ergebnissen nicht sehr weit in die Zukunft reichen) und längerfristige dynamische Optimierung „einstellen und vergessen“.

7. Evolutionäre Algorithmen

evolutionäre Algorithmen

Evolutionäre Algorithmen sind eine Art Kombination aus multivariaten Tests und Banditentests. Im Rahmen von Marketingexperimenten ermöglichen Ihnen evolutionäre Algorithmen, eine Vielzahl von Varianten gleichzeitig zu testen.

Das Ziel eines evolutionären Algorithmus ist es, die optimale Kombination von Elementen auf einer Seite zu finden. Sie arbeiten, indem sie eine „Population“ von Varianten erstellen und sie dann alle gegeneinander testen. Die leistungsstärkste Variante wird dann als Ausgangspunkt für die nächste Generation verwendet.

Wie der Name schon sagt, verwendet es evolutionäre Iterationen als Modell für die Optimierung. Sie haben eine Menge verschiedener Versionen von Überschriften, Schaltflächen, Fließtexten und Videos, und Sie fügen jede von ihnen zusammen, um neue Mutationen zu erstellen, und versuchen dynamisch, schwache Varianten zu töten und mehr Verkehr an starke Varianten zu senden.

Es ist wie ein multivariates Testen mit Steroiden, allerdings mit weniger Transparenz bei Interaktionseffekten (daher ein geringeres Lernpotential).

Diese Experimente erfordern auch ziemlich viel Website-Traffic, um gut zu funktionieren.

Anwendungsfälle: Massives multivariates Testen, Zusammenfügen mehrerer Creative-Versionen und Finden des Gewinners unter allen Kombinationen.

8. Split-Page-Path-Test

Split-Page-Pfad-Testillustration

Ein Split-Page-Path-Test ist ebenfalls eine sehr verbreitete Art von A/B-Tests.

Anstatt ein Element auf einer einzelnen Seite zu ändern, ändern Sie den gesamten Pfad, den ein Benutzer durch Ihre Website nimmt.

Original und Variation in der Testillustration des geteilten Seitenpfads

Bei einem Split-Page-Path-Test testest du im Wesentlichen zwei verschiedene Versionen deiner Website, deines Produkts oder deines Trichters. Das Ziel ist normalerweise, die Version zu finden, die zu mehr Conversions oder Verkäufen führt. Es kann auch dabei helfen, Drop-off-Punkte im Trichter zu identifizieren, die Schwerpunktbereiche für eine weitere Optimierung diagnostizieren können.

Anstatt die Kopie auf einer Schaltfläche zu ändern, ändern Sie im Grunde die nächste Seite, zu der Sie die Schaltfläche führt, wenn Sie darauf klicken. Es ist eine leistungsstarke Möglichkeit, mit der Customer Journey zu experimentieren.

Anwendungsfälle: Seitenpfade und Benutzertrichter in einem Produkt oder auf einer Website identifizieren und verbessern.

9. Existenztest

existenzprüfungsillustration

Existenzprüfung ist ein interessantes Konzept. Was Sie versuchen, ist die Wirkung (oder deren Fehlen) eines bestimmten Elements in Ihrem Produkt oder Ihrer Website zu quantifizieren.

Laut einem CXL-Artikel „entfernen wir einfach Elemente Ihrer Website und sehen, was mit Ihrer Konversionsrate passiert.“

Mit anderen Worten, Sie testen, ob eine Änderung überhaupt Auswirkungen hat.

Strategisch ist dies eine so unterschätzte Strategie. Wir gehen oft davon aus, entweder durch unsere eigene Heuristik oder durch qualitative Forschung, welche Elemente auf einer Seite am wichtigsten sind.

Sicherlich ist das Produktdemo-Video wichtig. Existenztests sind eine Möglichkeit, diesen Glauben in Frage zu stellen und schnell eine Antwort zu erhalten.

Entfernen Sie einfach das Video und sehen Sie, was passiert.

Conversion-Rate erhöhen oder verringern? Interessant – das bedeutet, dass das Element oder die Immobilie, die es besetzt hat, in gewisser Weise wirkungsvoll ist.

Keine Auswirkung? Das ist auch interessant. In diesem Fall würde ich den Fokus meines Teams auf andere Teile des digitalen Erlebnisses lenken, da ich weiß, dass selbst das vollständige Entfernen des Elements unseren KPIs nichts bringt.

Anwendungsfälle: „Umwandlungssignalzuordnung.“ Im Wesentlichen kann dies Ihnen die Elastizität von Elementen auf Ihrer Website sagen, AKA, sind sie überhaupt wichtig genug, um Ihre Optimierungsbemühungen darauf zu konzentrieren?

10. Lackierte Türtest

Lackierte Tür testen

Ein bemalter Türtest ähnelt in gewisser Weise einem Existenztest. Sie werden sehr häufig zum Testen neuer Angebote sowie zum Testen der Nachfrage nach neuen Produktfunktionen verwendet.

Grundsätzlich ist ein Test mit bemalten Türen ein Experiment, um zu sehen, ob die Leute eine neue Funktion tatsächlich verwenden oder nicht. Sie verbringen nicht wirklich Zeit und Ressourcen, um das neue Angebot oder die neue Funktion zu *erstellen*. Stattdessen erstellen Sie eine „gemalte Tür“, um zu sehen, ob Passanten überhaupt versuchen, sie zu öffnen (dh Sie erstellen einen Button oder eine Zielseite und sehen, ob die Leute überhaupt darauf klicken, was auf Interesse hinweist).

Das Ziel eines Tests mit lackierten Türen ist es, herauszufinden, ob für das, was Sie testen, eine Nachfrage besteht. Wenn die Leute die neue Funktion tatsächlich nutzen, wissen Sie, dass es sich lohnt, sie weiterzuverfolgen. Wenn nicht, dann wissen Sie, dass es Ihre Zeit nicht wert ist, und können die Idee verwerfen.

Sie werden auch als Rauchtests bezeichnet.

Lackierte Tür Tests sind eine tolle Möglichkeit, neue Ideen zu testen, ohne viel Zeit oder Geld zu investieren.

Da Sie kein Angebot oder keine Erfahrung mit der Erstellung haben, können Sie normalerweise keine KPIs wie die Konversionsrate verwenden. Vielmehr müssen Sie Ihren Mindestschwellenwert für den erwarteten Wert modellieren. Zum Beispiel kostet das Erstellen von X-Funktion Y, also müssen wir angesichts unserer vorhandenen Ausgangsdaten die Klickrate von Y sehen, um die Erstellung des „echten“ Erlebnisses zu rechtfertigen.

Eine Warteliste vor dem Start ist in gewisser Weise ein gemalter Türtest (wobei das berühmte Beispiel Harrys Rasierer sind).

Beispiel für eine Warteliste für Tests mit bemalten Türen vor der Markteinführung
Bildquelle

Anwendungsfälle: Beweisen Sie den Business Case für die Investition von Zeit und Ressourcen in die Erstellung einer neuen Funktion, eines neuen Angebots oder einer neuen Erfahrung.

11. Entdeckungstest

Entdeckungstest

Bei Discovery-Tests, die ich aus Andrew Andersons Discipline-Based Testing Methodology gezogen habe, geht es darum, die Bandbreite möglicher Optionen zu erweitern.

Sie sind fast immer eine Version von A/B/n-Tests mit mehreren Varianten, müssen aber nicht unbedingt so gestaltet sein. Der größere Zweck dieser Optionen besteht darin, Optionen zu testen, die außerhalb des Bereichs liegen, den Sie normalerweise für angemessen gehalten hätten. Dies mildert Ihre eigene Voreingenommenheit, die den Umfang der Optionen, die Sie jemals in Betracht ziehen, einschränken kann.

Anstatt eine Hypothese eng zu definieren, hoffen Sie, Ihre eigenen Vorurteile zu überwinden und möglicherweise etwas völlig Neues darüber zu lernen, was bei Ihrem Publikum funktioniert.

Um einen Entdeckungstest durchzuführen, nehmen Sie ein Grundstück auf Ihrem Produkt oder Ihrer Website und generieren eine Reihe verschiedener Varianten. Das Ziel ist, dass sich jede Variante stark von der vorherigen unterscheidet und Ihnen eine große Auswahl an unterschiedlichen Optionen bietet. Das Ziel ist es, etwas zu finden, das funktioniert, auch wenn Sie nicht wissen, was es im Voraus ist.

Bei Discovery-Tests ist es wichtig, Ihr Experiment Ihren Makro-KPIs zuzuordnen und nicht für Mikro-Conversions zu optimieren. Es ist auch wichtig, auf aussagekräftige und stark frequentierte Erfahrungen zu testen, da Sie eine angemessene statistische Aussagekraft benötigen, um Aufzüge unter den vielen Varianten aufzudecken.

Um ein Beispiel für ein solches Experiment zu sehen, sehen Sie sich das Beispiel von Andrew Anderson von Malwarebytes an, wo sie 11 sehr unterschiedliche Varianten getestet haben.

Anwendungsfälle: Befreien Sie Ihre Experimentierbemühungen von voreingenommenen Hypothesen und finden Sie unkonventionelle Lösungen, die zwar gegen Ihre Intuition verstoßen, aber letztendlich die Geschäftsergebnisse vorantreiben.

12. Iterativer Test

Iterativer Test

In der Informatik gibt es ein Konzept, das als „Hill-Climbing-Problem“ bekannt ist. Grundsätzlich versuchen Bergsteigeralgorithmen, den höchsten Punkt in einer Landschaft zu finden, indem sie unten beginnen und sich ständig nach oben bewegen.

Das gleiche Konzept kann auf Marketingexperimente angewendet werden.

Bei einem iterativen Test beginnst du mit einer kleinen Änderung und machst sie dann immer größer, bis du den Punkt erreichst, an dem die Rendite abnimmt. Dieser Punkt abnehmender Erträge wird als „lokales Maximum“ bezeichnet. Ein lokales Maximum ist der höchste Punkt in der Landschaft, der von Ihrem Ausgangspunkt aus erreichbar ist.

Maxima und Minima
Bildquelle

Das Ziel eines iterativen Tests ist es, das lokale Maximum für eine gegebene Änderung zu finden. Dies kann eine sehr effektive Methode sein, um Dinge wie Angebotsänderungen oder Preisänderungen sowie alle Elemente zu testen, die Sie durch Recherchen oder Existenztests als wirksam befunden haben.

Grundsätzlich wissen Sie, dass Element X wichtig ist, und Sie wissen, dass es zusätzlichen Spielraum gibt, um KPI Y zu verbessern, indem Sie Element X verbessern. Sie unternehmen also mehrere kleine und iterative Versuche, Element X zu ändern, bis es den Anschein hat, dass Sie die Metrik nicht mehr verbessern können (oder es ist außerordentlich schwierig, dies zu tun).

Ein einfaches Beispiel für einen iterativen Test stammt von meiner eigenen Website. Ich betreibe Lead-Magnet-Popups. Ich weiß, dass sie E-Mails vorantreiben, und es gibt wahrscheinlich einen Punkt, an dem die Rendite abnimmt, aber ich glaube, ich habe ihn noch nicht erreicht. Also ändere ich alle paar Monate eine Variable – entweder die Überschrift, das Angebot selbst oder das Bild, in der Hoffnung, einen kleinen Auftrieb herauszuholen.

Beispiel eines iterativen Tests auf einer Website

Anwendungsfälle: Optimieren Sie gezielte Elemente oder Erfahrungen, indem Sie mehrere kleine Iterationen der Erfahrung nacheinander testen, um ein lokales Maximum zu erreichen.

13. Innovationstest

Art des randomisierten kontrollierten Tests innovativer Test

Im Gegensatz zu iterativen Tests versuchen innovative Tests, völlig neue Hügel zum Klettern zu finden.

Laut einem CXL-Artikel sind innovative Tests „dazu bestimmt, Neuland zu erkunden und neue Möglichkeiten zu finden“.

Bei innovativen Tests geht es darum, etwas völlig Neues auszuprobieren. Sie sind normalerweise etwas riskanter als andere Arten von Experimenten, aber sie können auch sehr lohnend sein. Wenn Sie nach großen Gewinnen suchen, dann sind innovative Tests der richtige Weg.

Komplette Homepage- oder Landingpage-Redesigns fallen in diese Kategorie. Entdeckungstests sind eine Form des innovativen Testens. Button-Farbtests wären das genaue Gegenteil eines innovativen Tests.

Ein innovativer Test sollte Ihnen oder Ihren Stakeholdern etwas Unbehagen bereiten (aber denken Sie daran, das Schöne an Experimenten ist, dass sie von begrenzter Dauer sind und Ihre Nachteile begrenzen).

CXL gab hier ein Beispiel für einen innovativen Test, den sie für einen Kunden durchgeführt haben:

Beispiel für innovativen Test von CXL
Bildquelle

Anwendungsfälle: Nehmen Sie einen großen Schwung und finden Sie einen neuen „Hügel“, den Sie erklimmen können. Fassen Sie mehrere Hypothesen zusammen und ändern Sie eine Erfahrung drastisch.

14. Nichtunterlegenheitstest

Nichtunterlegenheitstest

Ein Nichtunterlegenheitstest wird verwendet, um festzustellen, ob eine neue Behandlung nicht schlechter ist als die Standardbehandlung.

Ziel eines Nicht-Unterlegenheitstests ist es zu zeigen, dass die neue Behandlung mindestens so wirksam ist wie die Standardbehandlung.

Warum führt man so einen Test durch?

Viele Gründe. Das Beste, was mir einfällt, ist, wenn Sie eine Variante haben, die in einer anderen Dimension „besser“ ist (sie ist billiger zu warten, entspricht besser den Markenstandards usw.), aber Sie möchten sicherstellen, dass sie Ihnen nicht schadet KPIs des Kerngeschäfts.

Oder stellen Sie sich im Rahmen medizinischer klinischer Studien vor, dass ein Medikament entwickelt wurde, das 1/10 so viel kostet wie das üblicherweise verschriebene Medikament. Solange es nicht *schlechter* als die bestehenden Medikamente wirkt, bedeutet seine Erschwinglichkeit, dass es eine viel bessere Option für die Einführung ist.

Ein weiterer Grund, warum ich diese leite, ist, wenn die Behandlung von einer Führungskraft oder einem Interessenvertreter stark bevorzugt wird. Ich hasse es, es Ihnen zu sagen, aber nur weil wir als Experimentierprofis Zugang zu Daten haben, heißt das nicht, dass wir die Unordnung voreingenommenen Denkens und menschlicher Politik vermeiden.

Ich nehme gerne gelegentlich den von HiPPO eingereichten Test und lasse ihn durch eine niedrigere Sicherheitsschwelle wie einen Nicht-Unterlegenheitstest laufen. Solange es nicht *meine* KPIs durcheinander bringt, kann es nicht schaden, es einzuführen, und es gewinnt politische Gunst.

Anwendungsfälle: Begrenzen Sie die Nachteile von Experimenten, bei denen eine andere Dimension überlegen ist (Kosten, Präferenz der Interessengruppen, Benutzererfahrung, Marke usw.).

15. Feature-Flag

Feature-Flag-Test

Feature-Flags sind eine Softwareentwicklungstechnik, mit der Sie bestimmte Features oder Funktionen ein- oder ausschalten und neue Features in der Produktion testen können.

Ohne auf eine Menge technischer Details einzugehen, ermöglichen sie es Ihnen, Funktionen in der Produktion zu testen oder sie langsam für kleinere Untergruppen von Benutzern bereitzustellen, während Sie gleichzeitig die Möglichkeit behalten, die Funktion schnell zu reduzieren oder zu beenden, wenn sie nicht funktioniert.

In vielerlei Hinsicht sind sie eine Methode zur Qualitätssicherung. Aber andererseits sind A/B-Tests in vielerlei Hinsicht dasselbe.

Der Begriff „Feature-Flag“ ist so etwas wie ein Überbegriff, der viele verwandte „Toggle“-Funktionalitäten umfasst, wie Canary-Releases, Tests in der Produktion, kontinuierliche Entwicklung, Rollbacks und Feature-Gates.

Anwendungsfälle: Testen Sie neue Funktionen oder Erfahrungen, bevor Sie neuen Code in der Produktion bereitstellen.

16. Quasi-Experimente

Quasi-Experiment

Schließlich die komplizierteste, breiteste und am schwersten zu definierende Kategorie von Experimenten: Quasi-Experimente.

Quasi-Experimente werden oft verwendet, wenn es nicht möglich ist, Benutzer zufällig Testgruppen zuzuweisen.

Wenn Sie beispielsweise ein neues Feature auf Ihrer Website testen, können Sie einen A/B-Test, ein Feature-Flag oder sogar einen Personalisierungsarm durchführen.

Aber was ist, wenn Sie eine Reihe von SEO-Änderungen testen und ihre Auswirkungen auf den Traffic sehen möchten? Oder noch weiter, ihre Auswirkungen auf die Blog-Conversions? Was ist, wenn Sie die Wirksamkeit von Plakatwerbung im Außenbereich testen möchten?

In einer überraschend großen Anzahl von Fällen ist es schwierig, wenn nicht sogar unmöglich, ein streng organisiertes und wirklich kontrolliertes Experiment auf die Beine zu stellen.

In diesen Fällen entwerfen wir Quasi-Experimente, um mit dem auszukommen, was wir haben.

Im Falle von SEO-Änderungen können wir Tools wie Causal Impact verwenden, um Änderungen in einer Zeitreihe zu quantifizieren. Insbesondere wenn wir unser Experiment auf der Grundlage von Seiten oder einer anderen identifizierbaren Dimension steuern, erhalten wir eine gute Längsschnittvorstellung davon, ob unsere Intervention funktioniert hat oder nicht.

Im Fall von Radio- oder Plakatwerbung können wir versuchen, repräsentative Geostandorte auszuwählen und die Wirkung im Laufe der Zeit mit ähnlichen Bayes-Statistiken zu quantifizieren.

Dies ist ein komplexes Thema, daher verlinke ich auf zwei großartige Ressourcen:

  • Wie Netflix Quasi-Experimente durchführt
  • Wie Shopify Quasi-Experimente durchführt

Anwendungsfälle: Quantifizierung der Auswirkungen, wenn eine randomisierte kontrollierte Studie nicht möglich oder durchführbar ist.

Fazit

Ich hoffe, das hat Sie davon überzeugt, dass A/B-Tests weit über das Ändern Ihrer Überschrift oder Ihres CTA-Buttons hinausgehen, um die Konversionsraten zu optimieren.

Wenn Sie Ihre Vorstellung davon erweitern, was Experimente erreichen können, erkennen Sie, dass es ein unglaubliches Lernwerkzeug ist.

Wir können wirkungsvolle Elemente auf einer Zielseite abbilden, die optimale Kombination von Elementen identifizieren, einen neuen und verbesserten Benutzerseitenpfad erarbeiten, neue Funktionen und Erfahrungen entwickeln, ohne technische Schulden oder eine schlechte Benutzererfahrung zu riskieren, und sogar neue Marketingkanäle testen und Eingriffe außerhalb unserer Website oder außerhalb unseres Produkts.

CRO-Meister
CRO-Meister