Пошаговое руководство без жаргона для (полного) понимания метрик A/B-тестирования

Опубликовано: 2022-08-02

Отличный контент не создается отдельным человеком. Поздоровайтесь с экспертами, благодаря которым это руководство стало возможным. Более 80 лет экспериментов и опыта A/B-тестирования — вминуту читать.

Алекс Биркетт

Бен Лабай

Кертис Стэньер

Дебора О'Мэлли

Эрик Бернхардссон

Джастин Кристиансон

Макс Брэдли

Суманта Шанкаранараяна

Тим Мехта

Пытаться понять метрики A/B-тестирования — это все равно, что копаться в кроличьей норе с чрезмерно сложными определениями, техническим жаргоном и бесконечными экспертными «мнениями».

Мы не виним вас, если вы испустили более одного раздраженного вздоха, пытаясь найти что-то ценное в Интернете.

Поиск в Google по фразе «понимание метрик A/B-тестирования».

Даже если вы убеждены, что хотите проводить эксперименты, может показаться, что знающие люди хранят информацию.

Но мы полны решимости это изменить. Эксперименты доступны каждому, и к концу этого вы тоже в это поверите.

Спрятать

Жесткая правда о том, как начать экспериментировать
- Различные способы просмотра метрик A/B-тестирования
- Обоснование перехода на стратегию Insights First (с правильными показателями)
- Метрики ввода, вывода и результатов: деконструкция экспериментальных программ с Беном Лабеем и Алексом Биркеттом
  - Фреймворк Бена
  - Alex Go-to Framework
- Цели, движущие силы и барьеры: метрики по объему
  - Цели или метрики путеводной звезды
  - Метрики водителя
  - Метрики ограждения
- Философский подход к метрикам: 5 Ws
Выбор метрик, которые имеют значение для дерева драйверов
- Следуйте этим 3 шагам, чтобы дать толчок вашей программе экспериментов
Ментальные модели: как профессионалы выбирают свои показатели в реальных экспериментах
- Бен Лабай и составление карт целей
- Как Дебора О'Мэлли помогла повысить CTR
- Почему Джастин Кристиансон добавляет вторичные точки данных
CXO: вершина изучения первых экспериментов?

Жесткая правда о том, как начать экспериментировать

Мы собираемся углубиться в то, как метрики рассматриваются с разных точек зрения, но сначала нам нужно разобраться.

Вы, наверное, слышали это утверждение раньше: «В A/B-тестировании нет потерь — только обучение».

Это частично верно.

Неубедительные (плоские) тесты и даже потери могут помочь вам получить четкое представление о том, что не работает для вашей целевой аудитории. Но если вы разрабатываете программу экспериментов и еще не заручились поддержкой топ-менеджеров, будьте готовы пройти через некоторые каверзы. Поймите, что те, кто держит кошельки, не будут особенно рады эзотерическим дискуссиям об «учениях» без значительного образования.

Чтобы получить их одобрение, вам нужно сначала показать быстрые и ощутимые победы . Результаты A/B-тестирования, которые ваши менеджеры могут сообщить руководству, чтобы показать некоторую веру в тот факт, что в основном академический научный метод экспериментирования действительно может продвинуть вперед что-то столь же практичное, как бизнес.

И самый простой способ сделать это?

Стремитесь к самому низкому результату: улучшите коэффициент конверсии на пользовательском опыте, который достаточно близок к влиянию на сделки или покупки. Скажем, прямое увеличение количества размещенных заказов на 1000 единиц (как показывает результат теста) легко конвертировать в доллары и прибыль.

Принесите этот отчет на собрание совета директоров, и весь зал будет гудеть от волнения — такого же, как от открытия еще одного «канала приобретения», также известного как CRO.

Но квартал придет и уйдет, а обещанного всплеска вы так и не увидите. Руководители, которые приветствовали вас как будущее бизнеса, будут сильно разочарованы. Последует сокращение бюджета. И кто-то из высшего руководства (*кашель* неисправимый HiPPO *кашель*) расскажет какую-то чушь о том, что эксперименты никогда не смогут превзойти традиционные каналы, такие как реклама и события, выдержавшие испытание временем.

[HiPPO = Самый высокооплачиваемый человек с мнением]

Видишь, что только что произошло? Активировав свое узкое видение, вы превратили эксперименты в просто CRO — то, что рассматривается (почти) как новомодный канал приобретения для возврата денег, оставшихся на столе. И вместе с этим? Все большие претензии, мошенничество и подводные камни, которые, как правило, сопровождают это.

Закладка: A/B-тестирование: полное руководство, которое вы захотите добавить в закладки

Различные способы просмотра метрик A/B-тестирования

Эксперимент — это машина. Но у большинства людей есть ошибочное представление о том, как это работает.

Они думают, что на входе — бизнес-проблемы, а на выходе — статистически значимые обоснованные бизнес-решения . И это может быть идеальная общая картина.

график, показывающий предположения ab-тестирования, где бизнес-проблемы являются входными данными, а решения — выходными

В увеличенном масштабе экспериментальная машина принимает знания и усилия, затраченные на научный процесс, в качестве входных данных и выдает программные показатели в качестве выходных данных.

Но здесь есть большое ЕСЛИ: для того, чтобы результат в конечном итоге привел к ожидаемым и желаемым результатам, качество программы экспериментов имеет первостепенное значение.

TL;DR: чем лучше вход (собранные данные, образование, сертификаты, грамотность данных и процессы), тем лучше результат (скорость эксперимента, процент побед, средний выигрыш за эксперимент) и тем выше шансы на достижение цели. (s) вы согласовали свою экспериментальную программу с.

Только когда вы зациклены на качестве экспериментов, у вас будет больше шансов увидеть результат, который поможет решить большие проблемы роста и эффективности, которые хотят решить все компании.

Чтобы достичь этого, нужно иметь стратегию метрик, которая не ставит результаты на пьедестал.

Вместо этого он помогает команде измерять и отслеживать входные и выходные данные (входные данные — единственный фактор, находящийся под непосредственным контролем оптимизатора) и использовать их в качестве индикатора прогресса. Путь к результату — это не спринт, это марафон, который проходит в фоновом режиме как побочный продукт хороших экспериментов.

Не поймите нас неправильно. Это легче сказать, чем сделать.

Часто эксперименты показывают, что определенные изменения вносить не следует. Конкретные функции не должны быть отправлены! А экспериментирование само по себе является преднамеренным… смещая акцент с первой стратегии доставки на понимание и изучение первой стратегии (поддерживаемой правильными показателями).

Нерешительность экспериментов невероятно распространена среди руководителей. Большинство основателей годами строят компанию без экспериментов, и может показаться, что эксперименты — это консервативная сила, которая мешает скорости компании, маркетингу продуктов и инновациям.

Эрик Бернхардссон, основатель Modal Labs

Обоснование перехода на стратегию Insights First (с правильными показателями)

Чтобы добиться реального прогресса, мы должны переключиться с погони за стратегией доставки на метрическую стратегию. Это децентрализует продуктовую стратегию, т. е. опускает идеи на самое дно, что идеально. И принятие метрической стратегии по своей сути означает экспериментирование. Вы не можете уклоняться от тестирования того, как новые изменения продукта влияют на ваш бизнес.

Полезно прочитать: Полное руководство по многовариантному тестированию в 2022 году

«Почему» вашей программы экспериментов закодировано в вашей стратегии показателей.

Все ваши усилия сосредоточены на быстрых победах и доходах?
Является ли экспериментирование способом понять ваших клиентов и предложить им ценность на протяжении всего их жизненного цикла?
Или же экспериментирование является целью само по себе, где чем лучше вы тестируете, тем более надежными выводами вы обладаете, и ваша ответственность состоит в том, чтобы поддерживать это колесо в движении, не оказывая негативного влияния на существующий опыт?

Подробнее об этом позже с Беном Лабеем из Speero.

От эксперимента к эксперименту метрики укрепляют вашу (реальную) направленность. У вас может быть 10-страничный манифест, рассказывающий о встраивании экспериментов в ДНК вашего бизнеса для ускорения инноваций, но если ваша основная цель всегда направлена на конверсию, то ваша программа тестирования, по сути, является программой CRO. Это может быть то, чего вы хотите достичь, но помните об ограничениях, которые проявятся в будущем, в том числе о том, что A/B-тесты можно рассматривать как миньонов приобретения/дохода — честно говоря, это не так.

Различные классы метрик позволяют отслеживать индикаторы, важные для топ-менеджеров, в то же время оптимизируя программу для более качественных тестов, причинно-следственных связей и проходя различные итерации для улучшения внутренней работы машины, чтобы результаты могли начать влиять на результаты. в долгосрочной перспективе.

Это видео с Тимом Мехтой является откровенным взглядом на то, почему повествование об экспериментах, которое вращается исключительно вокруг обучения, не является практической позицией.

Я думаю, что это действительно здорово, чтобы получить все эти знания на стороне участия, но для вашего владельца бизнеса, чтобы вы могли знать, чтобы продолжать создавать ресурсы для программы и получать бюджет для нее, по сути, вы знаете, что вам нужно убедиться, что вы в состоянии по крайней мере показать, что с точки зрения бизнеса ценность в долларах, которую эксперимент приносит вам программа.
Так что я думаю, что для большого количества экспериментов это больше похоже на общенаучный метод, все, что вы пытаетесь сделать, это узнать, что это вы знаете, это не столько выигрыш / проигрыш, сколько это доказанная гипотеза, ну, вы знаете, доказана или отвергнута. в то время как с тем, что у нас хорошо получается, большинство из нас занимается маркетингом, и поэтому, естественно, нам нужно иметь возможность сообщать о каком-то выигрыше или доходе, чтобы иметь возможность продолжать.
Тим Мехта, директор по маркетингу роста в Lucid Software

На более практическом уровне метрики удерживают обучение. Запуск плоских тестов подряд? Это может быть связано с тем, как вы собираете данные (проблема, ориентированная на инструменты) или с тем, как вы планируете эксперименты. Метрики помогают найти иголку в стоге сена и добиться большего.

TL&DR; Метрики помогают тестировщикам фиксировать различные аспекты экспериментов и распространять их влияние среди заинтересованных лиц на языке, который они понимают, ценят и ценят. Стратегия метрик выходит далеко за рамки «целей» и ставок, по которым оцениваются выигрышные варианты и проигрыши.

Благодаря метрикам экспериментальные программы живут, совершенствуются, развиваются и добиваются успеха (или терпят неудачу).

Метрики ввода, вывода и результатов: деконструкция экспериментальных программ с Беном Лабеем и Алексом Биркеттом

Существует множество определений первичных, вторичных и ограждающих метрик. Но любой, кто запускал программу экспериментов, знает, что должна быть структура для определения различных уровней целей.

Поэтому мы задали Бену Лабею, управляющему директору Speero, и Алексу Биркетту, соучредителю Omniscient, этот вопрос:

Какова ваша основная система показателей для сопоставления измеряемых переменных с многоуровневым воздействием экспериментов?

Фреймворк Бена

1. Категории показателей программы

Ben Labay Speero Экспериментальная программа Измерение Эволюция

К этому «этапу» следует относиться легкомысленно. Вы хотите постоянно следить за всем этим, но ФОКУС немного отличается в зависимости от этапа программы.

2. Начните с таксономии метрик верхнего уровня, вот моя:

Диаграмма таксономии метрик, метрики цели, метрики драйвера, метрики ограждения, автор Ben Labay Speero

Тогда для каждого,

3. Примеры целевых показателей:

Диаграмма целевых показателей Ben Labay Speero от CXL

затем

4. Примеры метрик водителя

Таблица показателей водителя Ben Labay Speero от CXL

затем

5. Метрики защиты программы

Таблица показателей ограждения Ben Labay Speero от CXL

Так…. ТОГДА у вас есть ингредиенты для метрической стратегии:

Стратегическая диаграмма показателей Ben Labay Speero от CXL

Примечание. Экспериментирование на ранней стадии должно быть сосредоточено на входных показателях, но вам приходится сталкиваться с давлением получения результатов, которые не будут реализованы, если у вас нет надлежащего образования, людей и процессов.

Это саморазрушительный цикл. Кроме того, метрики результатов не следует сразу же отмечать, особенно если вы прогнозируете «доход».

Лучший способ понять это — посмотреть, как Airbnb перешла на метрическую стратегию:

«Гости должны были сначала спросить разрешения у хозяев остаться в их Airbnb, и хозяева должны были решить, нравится ли им запрос на бронирование. Это создало массу трений, было ужасным опытом для гостей и открыло дверь для неправомерной предвзятости, чтобы войти в процесс.

Стратегия доставки продукта диктовала бы набор функций для доставки. Но Airbnb создал сильную команду с метрической стратегией: сделать так, чтобы Airbnb достигла 100% мгновенного бронирования.

Результатом стала насыщенная экспериментами стратегия, которая в совокупности изменила рынок. Изменения в продукте коснулись рейтинга в поиске, регистрации хоста и основных функций хоста (например, управление гостями, домашние правила, настройки времени выполнения заказа и т. д.), что позволило хозяевам добиться успеха в мире, где гости бронируют жилье мгновенно.
Эрик Бернхардссон

Alex Go-to Framework

Моя основная структура для определения метрик экспериментов проста: метрики ввода и вывода .
Заинтересованные стороны заботятся о выходных показателях. Они используются в расчетах рентабельности инвестиций и доказывают ценность программы — такие вещи, как коэффициент конверсии веб-сайта, коэффициент конверсии воронки, качественные лиды и т. д.
Лично я считаю, что они переоценены на программном уровне и недооценены на уровне эксперимента. Под этим я подразумеваю, что если вы ежеквартально отслеживаете коэффициент конверсии своих веб-страниц, эксперименты не будут единственным, что происходило в этот период времени. Сбор средств, макроэкономические тенденции, смещение каналов приобретения — все это может быть серьезными мешающими факторами. Вы можете обойти некоторые из них, установив наборы сдерживающих факторов или повторно протестировав базовую версию вашего цифрового опыта.
Их недооценивают в зависимости от эксперимента, потому что люди, как правило, не продумывают свои основные KPI эксперимента, вместо этого предпочитая включать различные цели и выбирать ту, которая соответствует их повествованию. Очень сложно придумать составную цель, общий критерий оценки, чтобы определить ваш эксперимент. Входные показатели — лучший способ оценить нашу программу. Основные три, на которые я смотрю, это
а) скорость эксперимента
б) винрейт эксперимента и
c) средний выигрыш за эксперимент.

Если я сдвину стрелку по любому из них, я, скорее всего, сдвину стрелку по своим выходным показателям.

Цели, движущие силы и барьеры: метрики по объему

Бен Лабай использует аналогию с автомобилем, чтобы объяснить эти показатели:

Суть в том, что у вас есть долгосрочные показатели, такие как показатели цели, и это ваша система GPS или навигации, то есть показатели северной звезды (NSM).

Это контрастирует с показателями водителя, которые являются краткосрочными показателями, также известными как спидометр. Например, оптимизация коэффициента конверсии для средней стоимости заказа (AOV).

Поместите это в дополнительный контраст с вашими показателями оповещения и выравнивания, такими как ваш тахометр или ваш датчик температуры; это ваши метрики ограждения.

PS Посмотрите это видео Бена, чтобы лучше понять эти категории:

Цели или метрики путеводной звезды

Метрика Полярной звезды или метрика с отставанием или широкой областью действия, как это определено Беном, носит скорее стратегический, чем тактический характер.

Например, A/B-тесты Netflix не предназначены для повышения вовлеченности — они предназначены для увеличения удержания. Если они удерживают клиентов, это означает, что подписчики взаимодействуют с продуктом и находят ценность в нем. Таким образом, удержание включает в себя несколько тактических показателей, таких как процент пользователей, которые платят или смотрят более 3 единиц контента.

Читать дальше: Полное руководство по использованию целей в A/B-тестировании (и как преобразовать цели Aces)

Метрики водителя

Эти опережающие индикаторы — это то, на чем вы фокусируетесь в краткосрочной перспективе, т. е. ваш показатель отказов и коэффициент конверсии. Иногда одной метрики недостаточно для оценки результата. Вот где в игру вступает Критерий общей оценки или OEC .

Также известный как ответ или зависимая переменная, переменная результата или показатель эффективности, OEC по существу представляет собой комбинацию KPI с разным весом в качестве одного основного KPI.

Единая метрика заставляет идти на компромиссы один раз для нескольких экспериментов и настраивает организацию на четкую цель. Хороший OEC не должен быть сфокусирован на краткосрочной перспективе (например, клики); напротив, он должен включать факторы, предсказывающие долгосрочные цели, такие как прогнозируемая пожизненная ценность и повторные посещения.
Ронни Кохави

Метрики ограждения

По словам Ронни Кохави,

Метрики Guardrail — это критически важные метрики, предназначенные для предупреждения экспериментаторов о нарушении предположения. Показатели Guardrail обеспечивают то, что Спитцер (2007) называет «способностью побуждать к информированным действиям». Когда эффект обработки неожиданно перемещает метрику ограждения, вы можете снизить доверие к результатам или остановить эксперимент в случаях, когда может быть нанесен вред пользователям или организации.

Существует два типа метрик ограждения: метрики ограждения, связанные с доверием, и метрики ограждения организации. Мы начнем с того, что, по нашему мнению, является самой важной метрикой ограждения, которую должен иметь каждый эксперимент: соотношение выборки, а затем продолжим с другими метриками ограждения и организационными показателями ограждения.

Соотношение выборки = В контролируемом эксперименте соотношение выборки равно соотношению размера выборки между различными тестовыми группами: контролем и вариантами.

Философский подход к метрикам: 5 Ws

Суманта Шанкаранараяна, основатель EndlessROI, смотрит на метрики иначе.

Ценность метрик заключается в их способности предсказывать поведение пользователей. При интерпретации метрик цель состоит не в том, чтобы спросить: «Сколько?» а скорее спросить «Почему так?». Метрики — это след, оставленный сознанием пользователя.

С философской точки зрения метрики можно разделить на четыре основные категории:

Группа 1 – Сумма (где и когда)

Просмотры страниц (уникальные и не уникальные)
Посетители сайта (новые и вернувшиеся)
Посещения
Общий доход
Пожизненная ценность
Совокупный доход от корзины для когорты экспериментов

Группа 2 – Природа (Почему)

Отслеживание событий
Браузер/платформа
Время на странице
Детали транзакции
Ошибки загрузки страницы
Разрешение экрана
Выход со страницы

Группа 3 – Источник (Кто)

Рефереры
Условия поиска
Страна/языки
Организации
Лучшие целевые страницы
Предыдущие страницы

Группа 4 – Результаты (Что)

Регистрация
Количество просмотров страниц
Заказы
Клики
Испытания
Следующие страницы
Удержание пользователей

Пока мы сопоставляем данные и начинаем видеть, как работает гипотеза, мы должны учитывать все угрозы достоверности, такие как

эффекты истории (события в СМИ, маркетинговые инициативы конкурентов, внутренние маркетинговые инициативы, сезонные изменения, экономические изменения),
инструментальный эффект (испытательная установка, с использованием двойного контроля),
эффект отбора (различные доверительные интервалы и доверительные интервалы для контроля и вариантов), и
эффект искажения выборки (высокая дисперсия, отсутствие статистической достоверности).

Основываясь на вышеуказанных категориях, одной из метрик может быть основная метрика, скажем, заказы (коэффициент конверсии).

Ваши оценки должны быть основаны на:

Коэффициент успеха — последние тенденции коэффициента конверсии
Полученные образцы — недавний уровень трафика и запланированное количество обработок
Величина разницы в величине основной метрики между контролем и вариантом и то, как это влияет на бизнес-цели.

Тем не менее, сбор данных из ваших вторичных показателей поможет в интерпретации результатов теста.

Интерпретация может основываться на:

ROI теста
Ключевые идеи, которые собираются, обычно отвечают на такие вопросы, как
- Что этот тест говорит о моих клиентах?
- Что мотивирует моих клиентов?
- Как они реагируют на определенные элементы?
- Что ценят мои клиенты?
- Что вызывает у них наибольшее беспокойство?
- Почему они падают в определенный момент?
- Где они в разговоре?
Последующие тесты: Где еще может быть полезно это обучение?

Важно отметить, что тестирование элементов на ранних этапах процесса конверсии позволяет увеличить трафик, а тестирование элементов на более поздних этапах процесса конверсии имеет большее потенциальное влияние на доход. Поэтому, исходя из этапов воронки, наши показатели также должны отражать цель, которую нужно достичь.

Читать далее: 7 ключевых шагов к обучению и совершенствованию на основе результатов A/B-тестирования

Другой взгляд на метрики исходит от Авинаша Кошика, евангелиста цифрового маркетинга в Google.

В недавнем выпуске своего информационного бюллетеня The Marketing <> Analytics Intersect он рекомендует игнорировать тщеславные показатели, такие как лайки и подписчики, и ложных богов, таких как просмотры страниц и «вовлеченность».

Вместо этого сосредоточьтесь на микрорезультатах, таких как подписки на рассылку новостей и показатели выполнения задач, цифровых макрорезультатах, таких как доход от конверсии и доход, а также на итоговых показателях, таких как прибыль и пожизненная ценность.

Еще один взгляд на метрики исходит от Саймона Жирардина из Conversion Advocates:

Работая с метриками, вы начнете видеть, как они соотносятся друг с другом. Большинство метрик-драйверов являются метриками-результатами. Ограничители часто связаны с выходными показателями. Возможно, вам захочется проверить свои драйверы на 5W, когда вы приступите к выбору метрик для своих тестов. Понимание основ позволяет вам творчески подходить к своим интерпретациям.

Выбор метрик, которые имеют значение для дерева драйверов

Разработка надежной стратегии метрик сводится к пониманию того, что такое дерево драйверов.

Дерево драйверов — это карта того, как различные показатели и рычаги в организации сочетаются друг с другом. В крайнем левом углу у вас есть общая метрика, которую вы хотите использовать. Это конечная цель, над которой должны работать все команды.
Источник
По мере того, как вы двигаетесь вправо, вы становитесь более детализированными с точки зрения того, как вы хотите достичь этой цели. Каждая ветвь дает вам индикатор составных частей, составляющих «что» над ними.
Кертис Станьер, директор по продуктам Delivery Hero

Дерево драйверов в сочетании с метриками может помочь определить области потенциальных возможностей и направить вас к решению.

Кертис объясняет это на примере. Например, если ваша цель — увеличить количество подписок по электронной почте. Допустим, только половина клиентов успешно нажимают на ссылку подтверждения по электронной почте, которую вы им отправили. Здесь возможны два сценария: либо клиенты не получают электронное письмо, либо не нажимают на него. Эти драйверы могут иметь различные влияющие факторы.

Когда вы сопоставляете поток процессов с деревом драйверов, вы можете добраться до основной причины. Возможно, поставщик электронной почты, которым вы пользуетесь, имеет 10% ошибок, что означает, что электронное письмо никогда не было отправлено. Эта конкретная проблема становится возможностью для вашей команды исправить.

Пример дерева метрических драйверов от Curtis Stanier Delivery Hero — Источник

Вот конкретный пример, любезно предоставленный Бхавиком Пателем, руководителем отдела аналитики продуктов в Hopin, чтобы проиллюстрировать, как можно сопоставить такую цель, как скорость тестирования, т. е. количество выполненных тестов, с показателями драйвера и ограждения.

Дерево метрических драйверов, автор Бхавик Пател Хопин. — Источник

Следуйте этим 3 шагам, чтобы дать толчок вашей программе экспериментов

1. Выберите цель своей экспериментальной программы

Привлекайте HiPPO, также известное как высшее руководство, чтобы не гнаться за показателями путеводной звезды, в которых руководство не заинтересовано. В противном случае ваша экспериментальная программа никогда не увидит свет. Задействуйте людей, которые понимают, что большие проблемы требуют инновационных решений, а не рискованных действий.

Как правило, Бен Лабей говорит, что отстающей, долгосрочной целью вашей программы экспериментов может быть одна из трех вещей: доход, клиент или процесс экспериментирования .

Целевые метрики Доход, клиент или процесс экспериментирования Бен Лабай Спиро

Например, Booking.com использует экспериментальное качество в качестве своей путеводной звезды. Вот почему:

На самом деле для нас важно не то, сколько продуктовых решений или как быстро они принимаются, а то, насколько хороши эти решения.

Хотя использование экспериментов как части разработки продукта и принятия решений в настоящее время является обычной практикой, само по себе это не гарантирует принятия правильных решений. Правильное проведение экспериментов может быть затруднено, а данные, полученные в результате эксперимента, надежны настолько, насколько надежен сам эксперимент. Проведение неудачных экспериментов — это просто очень дорогой и запутанный способ принятия ненадежных решений.
Кристоф Перрен, менеджер по групповым продуктам Booking.com

Читать далее: Полное руководство по использованию целей в A/B-тестировании (и как преобразовать цели Aces)

2. Создайте журнал приемлемых показателей Guardrail.

Тим Мехта рекомендует использовать скорость теста в качестве метрики ограждения с оговоркой, т. е. только в том случае, если целостность вашего теста хорошая или соответствует стандарту. Если вы не проводите тесты качества, любая выбранная вами метрика в конечном итоге станет метрикой тщеславия.

Как и Тим, Бен Лабай также предлагает использовать скорость тестирования вместе с другими метриками в качестве рабочего набора метрик ограждения:

Экспериментальные показатели Guardrail от Ben Labay Speero — Источник

3. Выбирайте Метрики водителя в каждом конкретном случае

Не все показатели являются хорошими показателями. Проведя тысячи A/B-тестов, Microsoft определила шесть ключевых свойств хорошей A/B-метрики:

Чувствительность
Надежность
Эффективность
Возможность отладки
Интерпретируемость и действенность
Инклюзивность и справедливость

Вы можете использовать STEDII, чтобы уточнить, какие показатели отслеживать и измерять изменения.

Контрольный список Microsoft STEDII для создания хороших показателей — Источник

Макс Брэдли, старший менеджер по веб-оптимизации в Zendesk, считает, что вы должны быть гибкими в отношении метрик драйверов, чтобы вы могли думать внутри или вне коробки:

Мы заметили, что поле создания поддомена (показанное ниже) было, безусловно, самым сложным полем формы в нашей пробной подписке для посетителей. Скорость отсева на этом поле была значительно выше, чем на любом другом месторождении.
Важно отметить, что у нас было отслеживание, которое позволило нам в первую очередь детально изучить производительность формы. Если вы только начинаете, этот уровень отслеживания вряд ли будет достижим в краткосрочной перспективе, но я бы рекомендовал «залезать в сорняки» с вашим отслеживанием с течением времени.
Когда проблема была выявлена, мы предприняли ряд шагов, чтобы определить подход, который мы хотели протестировать. Мы посмотрели, что сделали другие компании, где был задействован поддомен, я бы посоветовал посмотреть здесь не только на ваших конкурентов. Мы считали, что пользователю не нужно заботиться о создании субдомена, он предоставляет пользователю еще одну область для паузы и размышлений, увеличивая его когнитивную нагрузку. Мы можем создать их поддомен из названия их компании, которое они уже предоставили, и скрыть поле поддомена от пользователей.
Мы, естественно, ожидали, что это изменение увеличит количество пользователей, успешно подписавшихся на пробную версию, и мы смогли оценить ожидаемое увеличение благодаря упомянутому отслеживанию.
Однако на тот момент мы не знали, какое общее влияние это окажет на бизнес. Мы ожидали увидеть увеличение пробных конверсий, но отразится ли это на всем пути вниз по воронке до Win?
Кроме того, скрыв поле поддомена и автоматически сгенерировав поддомен для пользователя, мы хотели убедиться, что мы не перенесем эту проблему просто в другую область бизнеса. Это включало защиту интересов клиентов и поддержку клиентов с самого начала.
Основными областями, которые, по нашему мнению, будут важны для определения влияния этого эксперимента, были следующие:
Пробный тариф регистрации для посетителей формы
Лиды, MQL, возможности и победы
Изменения, внесенные пользователями в имя поддомена в сообщении о продукте, зарегистрируйтесь
Количество тикетов, полученных отделом защиты интересов клиентов в связи с изменением имени субдомена».

В зависимости от цели, которую вы выбираете, и того, как вы последовательно подходите к своим водителям, ваша экспериментальная личность и траектория программы могут развиваться несколькими разными путями. Взгляните на этот график от Бена Лабея:

Метрическая стратегия от Ben Labay Speero

Ментальные модели: как профессионалы выбирают свои показатели в реальных экспериментах

Мы попросили экспертов показать нам пример, в котором они увидели проблему, разработали гипотезу, а затем выбрали показатели для измерения успеха и закрепления знаний.

Вот что они сказали:

Бен Лабай и составление карт целей

Получите четкое представление о том, куда движется бизнес и почему.

Какова стратегия роста бизнеса? Вырастут ли они на 20% в следующем году за счет увеличения числа пользователей? Собираются ли они сосредоточиться на новых продуктах или монетизации существующей пользовательской базы? С этой информацией вы знаете, куда направить программу оптимизации, вы должны знать, где в воронке или на каких основных каналах сосредоточиться.

Для многих компаний электронной коммерции в 2021 году это было приобретение и конвертация новых пользователей. В конце 2022 года он будет ориентирован на AOV, то есть на прибыльность и эффективность приобретения.
В SaaS в течение последних нескольких лет наблюдалась тенденция фокусироваться на росте за счет продукта, поэтому основное внимание уделялось пробным версиям и адаптации, особенно для нисходящих сегментов рынка.
Получите четкое представление о поведении клиентов (отказы, шаблоны навигации и т. д.) и их восприятии (мотивация против FUD, страхи, неуверенность и сомнения).

У нас есть отличная модель данных для этого, ResearchXL, которая не только собирает данные о поведении и восприятии, но и преобразует данные через информацию в идеи, которые создают дорожную карту с приоритетами.
Объедините шаги 2 и 3 и соедините темы проблем/возможностей, которые вы создаете на основе исследования клиентов, с бизнес-целями на карте дерева целей.
Вот крупный план этой карты дерева целей, где вы можете увидеть эксперименты, связанные с метрикой прогресса на странице оформления заказа, которая была в центре внимания этого клиента электронной коммерции:

Читать далее: Как работать с инструментами A/B-тестирования для успешной оптимизации? Объяснение основных 6 факторов

Когда я работал в Workato, мы хотели узнать как можно больше о создании интерактивного тура по продукту. Учитывая, что у нас не было версии freemium, многие потенциальные клиенты хотели получить представление о том, как на самом деле работает продукт.
То, что мы надеялись узнать, определило KPI для каждого эксперимента.
В одном эксперименте мы просто хотели посмотреть, в отличие от других основных кнопок CTA на веб-сайте, таких как «запросить демонстрацию», люди вообще заинтересованы в концепции тура по продукту. Это был своего рода тест «нарисованной двери», хотя на самом деле мы уже разработали минимально жизнеспособный тур по продукту. В этом эксперименте мы просто отслеживали долю кликов в туре по продукту и использовали эксперимент неполноценности с лидами (мы просто не хотели, чтобы они терялись).
Затем, при оптимизации самого тура, мы использовали основной KPI макроса коэффициента конверсии веб-сайта (лиды) и сегментировали тех, кто нажимал на тур по продукту, чтобы увидеть, была ли также высокая корреляция, а также макроулучшение в нашем основном KPI. ».

Как Дебора О'Мэлли помогла повысить CTR

Метрики часто зависят от клиента. Обычно они привязаны к выручке. Однако иногда клиенты просто хотят увеличить вовлеченность.
В этом примере клиент из образовательного сектора хотел увеличить рейтинг кликов (CTR) со страницы, объясняющей образовательную программу, на страницу, на которой будущие студенты могли узнать больше о программе и подать заявку на участие.
Основываясь на анализе, основанном на данных, гипотеза заключалась в том, что на странице было так много конкурирующей информации, что пользователи не понимали, как действовать дальше или куда щелкнуть, чтобы узнать больше.
Применяя 5-этапную структуру, описанную выше, было решено, что оптимально отформатированное и синхронизированное всплывающее окно или всплывающее уведомление будут лучше всего информировать посетителей, где щелкнуть, чтобы узнать больше.
Поэтому была проведена серия экспериментов для определения оптимального формата и времени появления всплывающего уведомления. Были измерены рейтинги кликов.
Как показывают результаты этого тематического исследования (тест 1, тест 2), оптимизация размещения и времени всплывающего окна оказала чрезвычайно положительное влияние на конверсию CTR.
Однако, несмотря на то, что результаты оказались положительными, в конечном счете количество поданных заявок стало тем показателем, который действительно двигал школу вперед. Следовательно, необходимо провести дополнительное тестирование, чтобы определить оптимальный способ увеличения подачи заявок.
Ключевым уроком из этого примера является то, что клиенты часто имеют представление о том, что они хотят улучшить. Ваша задача как экспериментатора — оправдать их ожидания, но продвигаться дальше. Увеличение CTR — это хорошо. Но стремитесь увеличить конверсию глубже в воронке. Продвигайтесь настолько низко, насколько это возможно, к метрикам конечной воронки заработка, таким как завершенные заявки или завершение оформления заказа. Измеряйте выполненные работы и определяйте свой успех.

Почему Джастин Кристиансон добавляет вторичные точки данных

Мы основываем наши цели на задачах. Вы не можете просто думать о продажах и доходах. Как правило, нашей основной метрикой будут как конверсии продаж, так и RPV, но это не всегда дает полную картину того, как посетители взаимодействуют.
Для этого нам нравится устанавливать вторичные точки данных, такие как добавление в корзину, клики по элементам, посещения определенных страниц, таких как корзина или оформление заказа. Второстепенные цели немного меняются в зависимости от страницы или типа теста. Иногда продажи и выручка — это не то, на что вы пытаетесь рассчитывать с точки зрения результата.
Мы используем наши эксперименты, чтобы действительно помочь понять, что волнует посетителей, какие элементы имеют вес в общем UX, а затем строим стратегию на основе этих результатов. Наша гипотеза, как правило, всегда задает вопрос, почему или что в ситуации. Это может быть что-то такое же простое, как перемещение раздела на главной странице, тогда нашими целями будут клики по этому разделу, продажи, доход, посещения страниц продуктов. Тогда как интерпретировать данные будет так: если посетители продемонстрировали более высокую вовлеченность, переместив раздел, то этот раздел имеет вес, поэтому посетители предпочитают этот общий путь. Примером этого может быть представление разбивки коллекций по сравнению с отображением фактических блоков продуктов на странице для магазина электронной коммерции.

Читать дальше: вам нужен учебный репозиторий A/B-тестирования для проведения экспериментов с учетом опыта (эксперты говорят)

CXO: вершина изучения первых экспериментов?

Коэффициент конверсии — это не показатель тщеславия. Однако это стало узким термином.
Анника Томпсон, директор по работе с клиентами в Speero

Проблема, объясняет Анника, не в том, что CRO не имеет значения, а в том, что он несет с собой тонну багажа. Это всего лишь моментальный снимок во времени и без контекста, он может быть неуместным и совершенно опасным.

С другой стороны, CXO или оптимизация клиентского опыта сосредоточены на добыче качественной информации о предпочтениях и поведении клиентов, предоставляя все, от экспериментов по разрушению блоков конверсии до надежной бизнес-стратегии. Это просто большая отдача от ваших денег на тестирование.