Стоит ли проводить одновременные эксперименты? Руководство по предотвращению противоречивых результатов
Опубликовано: 2022-09-06В мире оптимизации ведутся споры о том, стоит ли проводить одновременные эксперименты. Некоторые считают, что проведение одновременных A/B-тестов испортит ваши результаты и даст неточные данные. Другие утверждают, что одновременная работа с A/B на разных страницах вашего веб-сайта может помочь вам протестировать больше вещей и быстрее определить выигрышные стратегии.
Итак, что правильно?
В этом сообщении блога мы рассмотрим преимущества и недостатки одновременных экспериментов и поможем вам решить, какой подход лучше всего подходит для вашей программы оптимизации.
Прочитав эту статью в блоге, вы сможете ответить на следующие вопросы:
- Могу ли я запускать одновременные возможности разделения URL-адресов?
- Могу ли я запускать одновременные A/B-опыты?
- Могу ли я запускать опыт A/A и опыт A/B одновременно?
Короткий ответ: да , на одной странице или наборе страниц одновременно могут выполняться несколько функций. Но имейте в виду, что группирование в одном опыте может повлиять на данные из другого одновременно происходящего опыта.
- Как происходит совпадение опыта и стоит ли вам беспокоиться?
- Тестирование одного и того же элемента
- Тестирование на той же странице
- Тестирование пользователей, участвующих в одной и той же воронке/потоке
- Запуск опыта для всего сайта
- Тестирование одной и той же аудитории/посетителей
- Проведение опыта, который может оказать существенное влияние на достижение цели, совместно используемой с другими опытами
- Стратегии успешного проведения тестов
- 1. Одновременный опыт без дублирования (изолированный)
- 2. Неодновременные (последовательные) переживания
- 3. Одновременный опыт с перекрытием
- а. A/B/N опыт
- б. Многовариантный опыт (MVT): объединение множества опытов в одном тесте
- Как настроить MVT в Convert Experiences
- в. Взаимоисключающий опыт
- Множество взаимоисключающих впечатлений
- Вывод
Как происходит совпадение опыта и стоит ли вам беспокоиться?
Есть одна вещь, о которой следует помнить при проведении одновременных экспериментов. В некоторых случаях два изменения могут взаимодействовать, что приводит к различному влиянию на поведение при их сочетании и по отдельности. Это может произойти, когда эксперименты проводятся на одной странице, с одним и тем же потоком пользователей и т. д.
Давайте рассмотрим несколько примеров того, где может произойти совпадение опыта и следует ли считать это проблемой.
Тестирование одного и того же элемента
Изменение дизайна страниц вашего продукта, чтобы выделить функции вознаграждения, такие как политика бесплатного возврата и бесплатная доставка, — это один из примеров A/B-тестирования, которое вы можете провести.
Один из наших клиентов протестировал именно этот сценарий. Основываясь на данных своего отдела обслуживания клиентов, они предположили, что клиенты не знали о политике бесплатного возврата бренда, потому что эта функция была недостаточно заметна на страницах продуктов. Затем они провели A/B-тестирование, показав эту функцию более заметно, и измерили реакцию клиентов.
Вот как выглядят оригинал и вариант:
Однако реализация теста была немного сложнее, поскольку изменения не должны были применяться к каждой странице продукта. Некоторые продукты не подлежали бесплатному возврату, некоторые товары из распродажи нельзя было модифицировать и т. д. По этим причинам они решили запустить еще один опыт A/B, параллельно изменяя тот же элемент и добавляя копию заявления об отказе от ответственности на многих из них. на этих страницах написано: «Товар возврату не подлежит».
Как видите, два варианта A/B влияют на один и тот же элемент веб-сайта и, следовательно, вызывают некоторое совпадение результатов, что затрудняет получение четких выводов.
Тестирование на той же странице
Другим примером опыта A/B был случай, когда наш клиент оптимизировал страницы своих продуктов, чтобы увеличить количество посещений для заказа.
Когда они проанализировали каждый элемент страниц продукта и отследили целевые конверсии, они обнаружили, что ссылки на главной панели навигации получили наибольшее количество кликов, особенно «Купить сейчас». Наш клиент осознал важность направления более качественного трафика на страницы категорий, а не оставлять их блуждающими по главной странице.
В результате клиент решил заменить раздел «Купить сейчас» другими категориями, такими как «суперэконом», «базар» и так далее. Кроме того, раздел «Купить сейчас» был перемещен в левую часть сайта, чтобы сделать страницу более визуально привлекательной и привлечь квалифицированных посетителей.
Вот как изначально выглядела страница продукта:
Тем временем на страницах продуктов проводился еще один A/B-эксперимент, чтобы определить, приведет ли другой цвет кнопки «Купить сейчас» к лучшей конверсии.
Поскольку эти два взаимодействия A/B влияют на одни и те же элементы на одной и той же странице, в результатах неизбежно некоторое совпадение.
Тестирование пользователей, участвующих в одной и той же воронке/потоке
Перекрытие опыта также может произойти при тестировании пользователей, участвующих в одной и той же воронке. Большинство веб-сайтов обеспечивают конверсию через несколько воронок. Хотя основное внимание может быть сосредоточено на покупках, создание или приобретение учетной записи также может быть важной движущей силой в бизнесе.
Запуск опыта на странице продукта, вероятно, повлияет на конверсию покупки; однако тестирование макета формы на странице создания учетной записи может помочь улучшить эту воронку. Тестирование приобретения включает в себя все: от привлечения трафика на сайт до сбора адресов электронной почты в маркетинговых целях.
Наличие опыта на одних и тех же страницах веб-сайта может привести к их перекрытию, что приведет к ошибкам. На результаты, скорее всего, повлияет, если цели опыта будут согласованы с теми же воронками.
Допустим, вы пытаетесь получить больше завершенных регистраций. При переходе на ваш сайт пользователям предлагается зарегистрироваться:
Чтобы настроить воронку конверсии для регистраций, вы можете отслеживать следующие события:
- Количество пользователей при регистрации
- Количество завершенных регистраций
- Количество загрузок главной страницы
Затем вы можете сформулировать несколько гипотез о том, как улучшить воронку, протестировав следующие изменения:
- Добавьте регистрацию в процесс регистрации
- Сократите форму регистрации, чтобы сделать ее более удобной для пользователя.
- Полностью удалить регистрацию
В этом случае, однако, невозможно определить точное влияние изменения от A/B-тестирования, поскольку опыт A/B влияет на одну и ту же воронку, поэтому их результаты будут частично пересекаться.
Запуск опыта для всего сайта
Могут быть случаи, когда вам нужно поэкспериментировать с элементом, который появляется на всех страницах. Допустим, вы хотите протестировать изменение цвета или размера шрифта призыва к действию в нижнем колонтитуле, чтобы узнать, сколько конверсий вы можете получить.
Этот процесс легко реализовать с помощью Convert: просто добавьте все страницы в таргетинг.
Это все!
Однако таргетинг на весь сайт повлияет на другие A/B-тесты, выполняемые на этих страницах, что приведет к дублированию опыта.
Тестирование одной и той же аудитории/посетителей
Рассмотрим следующий пример: вы хотите оценить два аспекта вашей системы электронной коммерции, поэтому вы разрабатываете два A/B-теста для мобильных пользователей и пользователей настольных компьютеров.
- Вы пытаетесь выяснить, увеличит ли количество кликов кнопка «Добавить в корзину» красного цвета вместо синего.
- Вы пробуете новый процесс оформления заказа, который сокращает количество шагов с пяти до двух, чтобы увидеть, получите ли вы больше регистраций.
Если оба действия приводят к одному и тому же событию успеха (завершенная транзакция), может быть сложно определить, что повысило конверсию на настольных и мобильных устройствах — красная кнопка или более удобный процесс оформления заказа.
Чтобы избежать дублирования результатов и других проблем с доставкой опыта, вы должны запустить вышеуказанные тесты для разных аудиторий (например, только для мобильных устройств или только для настольных компьютеров).
Единственным недостатком тестирования сегментации является то, что ваши показатели трафика будут ниже, что может повлиять на то, как долго должен выполняться ваш тест. Однако, поскольку он основан на методах персонализации, это предпочтительный метод, позволяющий избежать дублирования опыта при A/B-тестировании. Когда сегменты выбираются тщательно, их влияние на весь опыт будет минимальным.
Проведение опыта, который может оказать существенное влияние на достижение цели, совместно используемой с другими опытами
Само собой разумеется, что если ваши цели одинаковы во всех тестах, ваши результаты будут сосредоточены вокруг этой отдельной цели. Чтобы каждый опыт выполнял свою задачу, цели каждого из них не должны противоречить друг другу.
Стратегии успешного проведения тестов
Не существует универсального решения, когда речь идет о выполнении тестов, которые не перекрываются. По мере того, как вы проходите каждый этап своего эксперимента, ваши потребности будут определять, как вы будете действовать.
Чтобы помочь вам принять обоснованное решение, давайте рассмотрим наиболее распространенные стратегии, которые вы можете использовать для работы с дублированием.
1. Одновременный опыт без дублирования (изолированный)
Наиболее простой стратегией обычно является та, которую вы использовали до сих пор: изолированный опыт, работающий одновременно.
Как мы обсуждали выше, изолированные события не пересекаются, и результаты одного опыта не влияют на результаты другого.
Эта стратегия требуется в следующих случаях:
- Когда перекрытие технически невозможно : если вы проводите тестирование таким образом, чтобы исключить все возможные комбинации перекрытий, упомянутые выше.
- Когда взаимодействие с пользователем может быть нарушено : некоторые комбинации действий могут испортить взаимодействие с пользователем, поэтому эти взаимодействия необходимо запускать отдельно.
- Когда основной целью является точная метрика, тогда имеют смысл только отдельные эксперименты.
В этих случаях одно взаимодействие никак не может повлиять на другое, если вы запускаете два взаимодействия одновременно на двух разных страницах с двумя разными целями. Посетители, которые принимают участие в опыте 1, не будут участвовать во опыте 2, и наоборот.
Помимо вышеперечисленных случаев, с точки зрения эффективности, выполнение опыта на одновременных изолированных дорожках не имеет смысла. Запуск двух интерфейсов на разных дорожках занимает столько же времени, сколько и запуск их один за другим для любого заданного количества пользователей или сеансов. Если у вас есть 10 000 пользователей каждый месяц и вам нужно запустить два опыта, каждый из которых требует 5 000 человек, для завершения опыта все равно потребуется месяц.
Кроме того, у этой стратегии есть очевидный недостаток: опыт бега по изолированным дорожкам, несомненно, помешает исследовать потенциальное взаимодействие между вариантами.
Это было бы то же самое, что провести эксперимент с пользователями настольных компьютеров, прежде чем сделать победивший вариант доступным как для настольных, так и для мобильных пользователей, если бы были отдельные полосы тестирования. Воздействие на мобильных пользователей может быть таким же, как и на пользователей настольных компьютеров, но также возможно, что разница будет значительной.
2. Неодновременные (последовательные) переживания
Если нет возможности избежать дублирования опыта, вам следует рассмотреть возможность использования последовательного опыта. Это означает, что каждый опыт, который потенциально может накладываться на другой, должен выполняться последовательно.
Вы можете использовать столбцы преобразования «Начато/Запланировано» и «Остановлено», чтобы иметь представление о ваших последовательных тестах:
Эту стратегию можно сделать еще более эффективной с помощью дорожной карты расстановки приоритетов.
Фреймворки PIE и ICE — это два эффективных варианта расстановки приоритетов для вашей команды.
Платформа PIE (разработанная компанией Widefunnel) — это популярный метод определения приоритетов, который ранжирует тесты по трем критериям: потенциал, важность и простота. Используя оценку PIE, вы можете ранжировать и расставлять приоритеты для каждого теста на основе среднего балла по каждому из этих критериев.
Модель Impact, Confidence, and Ease (ICE) (разработанная Шоном Эллисом из Growthhackers) очень похожа на PIE, за исключением того, что вместо «потенциала» используется фактор уверенности.
Отсутствие дорожной карты ограничит вашу способность максимально эффективно использовать трафик и ресурсы.
Например, возможно непреднамеренное накопление незавершенных идей домашней страницы, которые должны быть реализованы одна за другой. Если это узкое место сохраняется, вы можете быть вынуждены ждать, вместо того, чтобы одновременно тестировать другие части вашего веб-сайта. Или вместо этого вы можете запустить несколько тестов одновременно, не принимая во внимание любые возможные эффекты перекрытия, что приведет к подозрительным результатам.
3. Одновременный опыт с перекрытием
Проанализировав свой опыт, вы пришли к выводу, что они пересекаются; следовательно, необходимо их изолировать. Как ты это делаешь? Это просто! Проведите первый тест, затем второй, правильно? В последовательном разделе объясняется, как это работает.
Представьте, однако, что вы хотите провести несколько тестов в период Рождества или любого праздничного сезона, потому что, по какой-то причине, именно в это время к вам приходит больше посетителей, и опыт может оказать более значительное влияние. Тогда что? Умеете ли вы запускать все свои опыты один за другим? Очевидно, нет.
Вы можете запускать свои опыты одновременно, не беспокоясь о перекрытии, используя приведенные ниже стратегии.
а. A/B/N опыт
Первая стратегия в этой категории — тестирование A/B/N, которое включает одновременное тестирование более двух вариантов. A/B/N относится не к третьему варианту, а к любому количеству дополнительных вариантов: A/B/C, A/B/C/D и любому другому расширенному тесту A/B.
Принципы A/B/N-тестирования остаются неизменными независимо от количества дополнительных вариаций: разделите пользователей на группы, назначьте вариации (как правило, целевых страниц или других веб-страниц) на группы, отслеживайте изменение ключевой метрики (обычно коэффициента конверсии). ), проверьте результаты опыта на статистическую значимость и разверните выигрышный вариант.
Однако экспериментирование со слишком большим количеством вариантов (когда можно выбрать только один) может еще больше разделить трафик на веб-сайт. Следовательно, это может увеличить количество времени и трафика, необходимых для достижения статистически значимого результата, и создать «статистический шум».
Также важно не упускать из виду общую картину при проведении нескольких экспериментов A/B/N. Нет никакой гарантии, что разные переменные будут хорошо работать вместе только потому, что они показали лучшие результаты в своих экспериментах.
В таких случаях рассмотрите возможность проведения многовариантных тестов, чтобы протестировать все варианты и убедиться, что улучшения перенесены на метрики верхнего уровня.
б. Многовариантный опыт (MVT): объединение множества опытов в одном тесте
Многовариантный опыт (MVT) запускает множество комбинаций различных изменений одновременно.
Чтобы определить, какой элемент из всех возможных комбинаций оказывает наибольшее влияние на цели, многие элементы должны быть изменены одновременно на одной странице.
В отличие от тестов A/B/N, многовариантное тестирование позволяет определить, какая комбинация изменений лучше всего отвечает требованиям ваших посетителей. С помощью многовариантного тестирования вы можете определить, какая комбинация переменных работает лучше всего при изменении нескольких переменных.
Например, если вы хотите протестировать два разных заголовка, два изображения и два цвета кнопок на странице, ваш тест MVT будет выглядеть следующим образом:
Приведенный выше тест MVT одновременно проверяет различные элементы (заголовки, цвет и изображение) в различных комбинациях.
Как настроить MVT в Convert Experiences
Во-первых, на вкладке «Впечатления» в вашей учетной записи Convert выберите «Новый опыт»:
Теперь вы можете назвать свой опыт. Давайте воспользуемся «Мой первый MVT», выберем многовариантный вариант и нажмем «Продолжить»:
В MVT есть разделы и варианты. Разделы — это места на вашей странице, где вы хотите протестировать один или несколько вариантов.
Ниже приведены примеры разделов:
- Логотип
- Заголовок
- Первый параграф
- Форма подписки
Существуют также варианты (в этих разделах), которые структурированы следующим образом:
- Раздел: Логотип
- Оригинальный логотип
- Вариант 1) логотип слева
- Вариант 2) логотип справа
- Раздел: Заголовок
- Оригинальный заголовок
- Вариант 1) заголовок «Ищи, мой друг»
- Вариант 2) заголовок «Дай поиску шанс»
- Раздел: Первый абзац
- Оригинальный первый абзац
- Вариант 1) первый абзац «красный»
- Вариант 2) первый абзац «синий»
- Раздел: Форма подписки
- Оригинальная форма подписки
- Вариант 1) форма подписки с дополнительным полем фамилия
- Вариант 2) форма подписки с флажком «технический документ»
- Вариант 3) форма подписки, плавающая слева
- Вариант 4) опциональная форма «женское лицо»
Вот как приведенная выше структура будет выглядеть в Convert Visual Editor.
URL-адрес страницы, которую вы хотите протестировать, будет загружен в визуальный редактор. После этого вы можете отредактировать первый вариант. Изменить содержимое так же просто, как щелкнуть любую область, выделенную оранжевым цветом. Щелкнув зеленый знак плюса рядом с именами вариантов, вы можете добавить новые варианты.
Вы можете, например:
- Щелкните элемент для изменения (элементы выделены оранжевой рамкой)
- Выберите действие в меню, например изменение источника изображения.
Сводка опыта MVT будет выглядеть так:
Однако MVT имеет несколько ограничений.
Первое ограничение касается количества посетителей, необходимых для того, чтобы результаты вашего многомерного опыта были статистически значимыми.
Увеличение количества переменных в многомерном тесте может привести к большому количеству вариаций. В отличие от стандартного A/B-теста, при котором 50 % трафика выделяется исходной версии, а 50 % — варианту, многовариантный тест выделяет только 5, 10 или 15 % трафика для каждой комбинации. На практике это приводит к более длительным периодам тестирования и невозможности достижения статистической значимости, необходимой для принятия решения.
Еще одним ограничением является сложность МВТ. Тест A/B часто легче настроить и проанализировать, чем многовариантный тест. Даже создание базового многомерного теста занимает много времени, и слишком легко что-то пойти не так. Может пройти несколько недель или даже месяцев, прежде чем обнаружится небольшой недостаток в дизайне взаимодействия.
Если у вас нет большого опыта тестирования — вы запускаете различные типы тестов на разных веб-сайтах — вам даже не следует рассматривать многовариантный тест. Возможно, вам будет лучше использовать следующую стратегию, о которой я расскажу, взаимоисключающие впечатления.
в. Взаимоисключающий опыт
Вы также можете запускать опыты с перекрытием одновременно, гарантируя, что они взаимоисключающие. Имейте в виду, что в зависимости от вашей платформы A/B-тестирования вы можете сделать опыт взаимоисключающим. По сути, вы должны разделить свой трафик на столько групп, сколько запускается опыт, и убедиться, что каждая группа участвует только в одном опыте.
Преобразование обеспечивает взаимную исключительность, и ниже мы покажем, как настроить его так, чтобы посетители, просматривающие опыт А, не просматривали опыт Б.
Порядок выполнения опытов:
Первый шаг в настройке — понять, как выполняются возможности Convert. Условия опыта оцениваются последовательно на странице с учетом их идентификатора опыта.
Опыт с наименьшим идентификатором оценивается первым, и после выполнения всех его условий инициируется новый опыт. Таким образом, на снимке экрана ниже опыт с идентификатором 100243925 запускается первым, а остальные следуют за ним.
Два взаимоисключающих опыта
Эти шаги необходимо выполнить, если у вас есть два приложения, работающие одновременно, и вы хотите сделать их взаимоисключающими:
- Установите распределение трафика ниже 100% при первом опыте.
Настройте взаимодействие с самым низким идентификатором, чтобы использовать менее 100 % трафика. Вы можете сделать это в разделе «Распределение трафика» сводки опыта.
- Установите условие аудитории «Разделенное по опыту — нет» на втором опыте.
Затем, во втором опыте, установите условие аудитории «Разделенный по опыту — нет». Вы можете найти это, если добавите новую аудиторию (в разделе «Данные посетителя»). Это условие означает, что посетитель будет протестирован только в том случае, если он не был протестирован ранее. Это предотвратит повторную проверку одного и того же посетителя.
Множество взаимоисключающих впечатлений
Если у вас есть более двух впечатлений, которые должны быть взаимоисключающими, вы можете выполнить следующие действия:
- Установите распределение трафика для всех возможностей ниже 100%.
Настройте все параллельные взаимодействия так, чтобы они использовали менее 100 % трафика. Вы можете сделать это в разделе «Распределение трафика» сводки опыта.
- Установите расширенную аудиторию на основе файла cookie посетителя
Затем во всех взаимодействиях, кроме взаимодействия с самым низким идентификатором, используйте расширенную аудиторию на основе файлов cookie посетителей, чтобы исключить посетителей, которые были включены в другие параллельные взаимодействия.
Например, предположим, что у нас есть эти 4 опыта:
- Опыт A с ID 123456, распределение трафика 80%
- Опыт B с ID 123457, распределение трафика 50%
- Experience C с ID 123458, распределение трафика 30%
- Опыт D с ID 123459, распределение трафика 75%
Опыт B должен иметь эту продвинутую аудиторию:
Опыт C должен иметь эту продвинутую аудиторию:
И, наконец, у Experience D должна быть эта продвинутая аудитория:
Как вы можете видеть выше, значение cookie отформатировано следующим образом:
хххххх.{т.1-
Это происходит потому, что если вы пытаетесь исключить посетителей, которые были включены в опыт, настроенный с трафиком менее 100%, файл cookie все равно записывается, если посетитель соответствует условиям области сайта и аудитории, но из-за распределения трафика посетитель не был включены в этот опыт.
Файл cookie преобразования _conv_v будет выглядеть примерно так:
exp:{12345678.{v.1-g.{}}}
Обратите внимание, что в приведенном выше формате нет значения варианта — только v.1 — потому что посетитель не был включен в опыт. Однако мы отслеживаем это с помощью файлов cookie, чтобы при следующем посещении страницы посетитель снова был исключен из того же опыта.
Вывод
Одновременное выполнение нескольких опытов создает некоторые сложности — вы не всегда уверены, какие тесты повышают конверсию или есть ли между ними скрытые взаимодействия. Однако это не является серьезной проблемой, поскольку существуют стратегии для смягчения этих сложностей.
Мы обсудили 5 стратегий решения проблем, вызванных одновременным запуском нескольких тестов:
- Одновременный запуск опытов, когда они не пересекаются друг с другом
- Запуск опытов последовательно, когда вы не можете избежать дублирования опыта
- Запуск опыта A/B/N
- Запуск MVT-тестов
- Запуск взаимоисключающих опытов
Мы также показали, как Convert поддерживает все вышеперечисленные стратегии тестирования, что делает его очень универсальным инструментом.
Все эти сложности важно учитывать при проведении A/B-тестирования, чтобы в каждом случае можно было выбрать наиболее подходящую стратегию. Мы будем более чем рады помочь вам, если у вас все еще есть какие-либо вопросы.