Метаанализ в контролируемых онлайн-экспериментах: беспристрастный взгляд на силу и ограничения этого научного метода

Опубликовано: 2022-09-28

Насколько полезен метаанализ в A/B-тестировании и других онлайн-экспериментах?

Полезно ли использовать прошлые знания для улучшения генерации гипотез? Или метаанализ — это просто ленивый предлог, чтобы просто полагаться на «проверенные шаблоны» вместо того, чтобы опираться на конкретные данные для внедрения инноваций в свой бизнес на основе опыта?

Это горячая тема для дискуссий. Кто-то за, а кто-то категорически против. Но как вы можете извлечь выгоду из обеих точек зрения и привнести ощутимую ценность в свою экспериментальную программу?

Вот о чем этот пост. В нем вы будете

Понять, что такое метаанализ
См. примеры метаанализа в действии
Узнайте, почему к метаанализу как концепции следует относиться с осторожностью (и уважением), и
Узнайте, как команды экспериментаторов могут правильно проводить метаанализ

И с бонусом: вы также увидите, как два известных эксперта по оптимизации коэффициента конверсии обсуждают это с противоположных сторон.

Давайте углубимся в это.

Спрятать

Что такое метаанализ?
- Примеры метаанализа в контролируемых онлайн-экспериментах
- Заинтересованы в проведении собственного метаанализа A/B-тестирования?
Мета-анализ – да или нет
- Мета-анализ — действуйте с осторожностью?
  - Не ставьте под угрозу строгость тестирования и стремление к инновациям
- Метаанализ — смазывание маховика экспериментов?
Если вы решите провести (и использовать) метаанализ — помните следующее
- Низкое качество экспериментов, включенных в анализ
- Неоднородность
- Предвзятость публикации

Что такое метаанализ?

Метаанализ использует статистику для принятия решения на основе анализа результатов нескольких экспериментов. Это происходит из научного мира, где исследователи объединяют результаты медицинских исследований, посвященных одной и той же проблеме, и используют статистический анализ, чтобы судить, действительно ли эффект присутствует и насколько он значителен.

В контролируемых онлайн-экспериментах, где у нас есть A/B-тестирование, многовариантное тестирование и сплит-тестирование для принятия решений и поиска наиболее эффективных способов достижения бизнес-целей, мы позаимствовали метаанализ, чтобы использовать то, что мы уже узнали из предыдущих тесты для информирования будущих тестов.

Давайте посмотрим на разные примеры в дикой природе.

Примеры метаанализа в контролируемых онлайн-экспериментах

Вот 3 примера мета-анализа в A/B-тестировании, как он использовался и что было обнаружено в каждой попытке:

Эмпирический метаанализ стратегий A/B-тестирования электронной коммерции , проведенный Алексом П. Миллером и Картиком Хосанагаром.

Этот метаанализ A/B-тестирования был опубликован в марте 2020 года. Аналитики изучили тесты специально для индустрии электронной коммерции, используя данные, собранные с платформы SaaS-тестирования A/B. Он состоял из 2732 A/B-тестов, проведенных 252 американскими компаниями электронной коммерции в 7 отраслях в течение 3 лет.

Они проанализировали эти тесты, чтобы обеспечить надежный анализ того, как тесты позиционируются на различных этапах воронки конверсии электронной коммерции.

То, что они нашли, было:

По сравнению с другими типами экспериментов, тесты на ценовые акции и те, которые размещаются на страницах категорий, связаны с наибольшим эффектом.
Доказательства того, что реакция потребителей на различные рекламные акции зависит от того, где эти рекламные акции расположены на сайте электронной коммерции.
В то время как рекламные акции, касающиеся цен на продукты, наиболее эффективны в начале воронки конверсии, рекламные акции, связанные с доставкой, наиболее эффективны в конце воронки конверсии (на страницах продуктов и при оформлении заказа).

Давайте посмотрим на другой пример и на то, что обнаружили исследователи…

Что работает в электронной коммерции — метаанализ 6700 экспериментов Уилла Брауна и Майка Сварбрика Джонса.

Используя данные 6700 крупных экспериментов в области электронной коммерции, в основном в секторах розничной торговли и туризма, Браун и Джонс исследовали влияние 29 различных типов изменений и оценили их совокупное влияние на доход. Он был опубликован в июне 2017 года.

Как следует из названия статьи, цель состояла в том, чтобы изучить, что работает в электронной коммерции, путем проведения большого мета-анализа. Вот как они могли прийти к этому убедительному заключению: изменения во внешнем виде сайта оказали гораздо более незначительное влияние на доход, чем изменения, основанные на поведенческой психологии.

Метрика дохода на посетителя (RPV) используется для измерения этого влияния. Таким образом, в их результатах рост на +10% по сравнению с экспериментом означает, что RPV вырос на 10% в этом эксперименте.

Вот некоторые другие результаты анализа:

Лучшими исполнителями (по номинациям) стали:
- Дефицит (указатели акций, например, «Осталось всего 3»): +2,9%
- Социальное доказательство (информирование пользователей о поведении других): +2,3%
- Срочность (таймеры обратного отсчета): +1,5%
- Восстановление отказа (отправка сообщений пользователям, чтобы они оставались на сайте): + 1,1%
- Рекомендации по продуктам (допродажи, перекрестные продажи и т. д.): +0,4%
Но косметические изменения пользовательского интерфейса, такие как приведенные ниже, не были эффективными:
- Цвет (изменение цвета элементов веб-страницы): +0,0%
- Кнопки (модификация кнопок сайта): -0,2%
- Призывы к действию (изменение текста): -0,3%
90 % экспериментов оказали положительное или отрицательное влияние на доход менее 1,2 %.
Мало доказательств того, что A/B-тесты приводят к двузначному увеличению доходов, которые обычно фигурируют в тематических исследованиях.

Теперь подождите. Прежде чем принимать эти результаты метаанализа как истину, вам нужно знать, что метаанализ онлайн-экспериментов имеет ограничения. Мы займемся этим позже.

Мета-анализ 115 A/B-тестов на GoodUI.org Георгия Георгиева

В июне 2018 года Георгий Георгиев, эксперт по онлайн-экспериментациям и автор книги «Статистические методы в онлайн-тестировании A/B», проанализировал 115 общедоступных A/B-тестов на GoodUI.org.

GoodUI.org публикует набор результатов экспериментов, в том числе недавно обнаруженные шаблоны пользовательского интерфейса и то, что такие компании, ориентированные на эксперименты, как Amazon, Netflix и Google, узнают из своих тестов.

Цель Джорджи состояла в том, чтобы сопоставить и проанализировать эти данные, чтобы выявить средние результаты тестов и поделиться идеями о лучших статистических методах при разработке и проведении мета-анализа A/B-тестов.

Он начал с обрезки исходного набора данных и внес некоторые статистические корректировки. Среди них удаление:

Тесты с дисбалансом между количеством пользователей, отправленных для проверки контроля, и количеством пользователей, отправленных для проверки претендента, и
Скомпрометированные тесты (выявлены их нереально низкой статистической мощностью).

Он проанализировал оставшиеся 85 тестов и обнаружил, что средний процент прироста составил 3,77%, а медианный прирост — 3,92%. Глядя на распределение ниже, вы увидите, что 58 % тестов (это большинство) дали наблюдаемый эффект (повышение %) между -3 % и +10 %.

Метаанализ 115 A/B тестов на GoodUI.org Георгий Георгиев Наблюдаемый процентный эффект — Источник

Важно отметить, что это представляет этот набор данных, а не все A/B-тестирование, которое когда-либо проводилось. Кроме того, мы должны учитывать предвзятость публикации (один из недостатков метаанализа, который мы обсудим позже).

Тем не менее, этот мета-анализ полезен оптимизаторам коэффициента конверсии и другим заинтересованным сторонам в области оптимизации, чтобы иметь представление о том, каковы внешние ориентиры в A/B-тестировании.

Заинтересованы в проведении собственного метаанализа A/B-тестирования?

Вы получаете доступ к тому же набору данных, который использовал Георгий. Он общедоступен на GoodUI.org — репозитории очищенных результатов A/B-тестов, проведенных на разных платформах, в разных отраслях и для различных основных проблем.

Существуют и другие коллекции результатов A/B-тестирования, подобные этой (вы даже можете создать свою, извлекая данные из многочисленных примеров A/B-тестирования и тематических исследований), но GoodUI уникален. Вы получаете дополнительную статистическую информацию о тесте, которую невозможно получить иначе, если вы занимаетесь серфингом и собираете тематические исследования.

Метаанализ A/B-тестирования на GoodUI.org — Источник

Еще несколько вещей делают GoodUI уникальным:

Он не делает различий на основе результатов экспериментов. Он включает в себя выигрышные, неубедительные, плоские и отрицательные тесты для борьбы с предвзятостью публикаций в метаанализе, что является реальной проблемой, как указано в «Метаанализе, воронкообразных графиках и анализе чувствительности» Джона Копаса и Цзянь Цин Ши.

Предвзятость публикации — это предпочтение публикации небольших исследований, если их результаты «значительны», по сравнению с исследованиями с отрицательными или неубедительными результатами. Вы не можете исправить это, не делая непроверяемых предположений.

GoodUI идет еще дальше. Часто результаты метаанализа скрыты в научных статьях. Они почти никогда не находят практического применения, особенно для экспериментальных групп, которые не очень зрелы.

С шаблонами GoodUI любопытные оптимизаторы могут копаться в наблюдаемых процентных изменениях, расчетах статистической значимости и доверительных интервалах. Они также могут использовать оценку GoodUI того, насколько сильным является результат, с возможными значениями «Незначительный», «Возможный», «Значительный» и «Сильный» в обоих направлениях для каждого шаблона конверсии. Можно сказать, что это «демократизирует» идеи мета-анализа A/B-тестов.

Однако здесь есть проблема. Экспериментаторы, которые могут не знать о проблемах метаанализа — неоднородности и предвзятости публикаций — а также о том, что результаты метаанализа зависят от качества самого метаанализа, могут свернуть на территорию слепого копирования паттернов.

Скорее, им следует провести собственное исследование и провести A/B-тесты. Неспособность сделать это в последнее время (справедливо) вызывает беспокойство в пространстве CRO.

GuessTheTest — еще один ресурс с примерами A/B-тестирования, в котором вы можете найти аналогичную глубину деталей некоторых тестов, таких как GoodUI.

Метаанализ A/B-тестирования на GuessTheTest — Источник

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ : Мы не пишем этот блог с намерением охарактеризовать или восхвалять метаанализ и модели конверсии. Мы просто собираемся представить плюсы и минусы, как это обсуждалось экспертами в области CRO. Идея состоит в том, чтобы представить метаанализ как инструмент, чтобы вы могли использовать его по своему усмотрению.

Мета-анализ – да или нет

Разумный ум ищет закономерности. Так вы сократите путь от проблемы к решению, когда в следующий раз столкнетесь с похожей проблемой.

Эти шаблоны приводят вас к ответу в рекордно короткие сроки. Вот почему мы склонны полагать, что можем взять то, что узнали из экспериментов, объединить их и вывести закономерность.

Но целесообразно ли это для экспериментальных групп?

Каковы аргументы за и против метаанализа в контролируемых онлайн-экспериментах? Сможете ли вы найти золотую середину, которая сочетает в себе лучшее из обоих миров?

Мы спросили двух самых громких голосов в области экспериментов с (уважительно) различными точками зрения об их отношении к метаанализу.

Джонни Лонгден и Якуб Линовски — голоса, которым можно доверять.

Якуб Линовски

Джонни Лонгден

Мета-анализ — действуйте с осторожностью?

В приведенном выше обсуждении Джонни указал на две потенциальные проблемы с использованием данных метаанализа в онлайн-тестировании, которые требуют осторожности от специалистов по CRO.

Проблема № 1: Использование результата без его тестирования
«Если это сработало для этой компании, это должно сработать и для нас». Это может оказаться ошибочным мышлением, потому что есть нюансы, связанные с тестированием, которые не учитываются во фрагменте результатов, которые вы просматриваете.

Несколько тестов могут продемонстрировать простое решение, но это только вероятность того, что оно может работать немного лучше, чем другие решения, а не окончательный ответ, что оно будет работать на вашем веб-сайте.

Проблема № 2. Вы не можете так легко классифицировать тесты
Как упоминалось в № 1, эти результаты не отражают полной и тонкой истории тестов. Вы не видите, почему проводились тесты, откуда они взялись, какие предыдущие проблемы существовали на веб-сайте и т. д.

Вы видите только, что это был тест по призыву к действию на странице товара, например. Но базы данных метаанализа рассортируют их по определенным шаблонам, даже если они не попадают в эти шаблоны четко.

Что это означает для вас, пользователя базы данных метаанализа A/B-тестирования или исследователя CRO, который собирает собственную базу данных метаанализа для извлечения знаний?

Это не означает, что метаанализ запрещен, но вы должны быть осторожны при его использовании. Какую осторожность следует принять?

Не ставьте под угрозу строгость тестирования и стремление к инновациям

Напомним, что метаанализ — это статистическая идея медицинского сообщества, где эксперименты строго контролируются, чтобы обеспечить повторяемость результатов.

Окружающая среда и другие факторы, связанные с наблюдением, повторяются в нескольких экспериментах, но это не то же самое, что и онлайн-эксперименты. Метаанализ онлайн-экспериментов объединяет их данные независимо от этих различий.

Один веб-сайт радикально и совершенно отличается от другого веб-сайта, потому что у него совершенно другая аудитория и происходят совсем другие вещи. Даже если он кажется относительно похожим, даже если это один и тот же продукт, он все равно полностью и совершенно отличается миллионами и миллионами способов, так что вы просто не можете его контролировать.
Джонни Лонгден

Помимо других ограничений, это влияет на качество того, что нам позволено называть истинным метаанализом.

Итак, если вы не уверены в уровне статистической достоверности тестов и метаанализа тестов, вы можете использовать их только с крайней осторожностью, как советует Шива Манджунатх.

Целью метаанализа не должно быть копирование конкурентов. Переход от использования метаанализа к прямому копированию раздвигает границы доверия. За «копированием» скрываются нюансы, так что вряд ли это черно-белая ситуация.

Комментарии к сообщению Деборы выше были разными. Можно копировать до определенной степени, но переусердствовать опасно:

Как соглашается Якуб, мы должны быть осторожны с копированием, особенно когда дело доходит до проверки закономерностей, которые мы наблюдали в экспериментах.

Как соглашается Якуб, мы должны быть осторожны с копированием, особенно когда речь идет о подтверждении закономерностей, которые мы наблюдали в ходе экспериментов.

Однако нам следует остерегаться превращения экспериментов в товар . То есть использование шаблонов и идей метаанализа в качестве передовой практики для замены исследований экспериментами, вместо того, чтобы дополнять то, что должны сказать данные, относящиеся к конкретной ситуации.

Итак, начните с понимания проблемы, которую вы хотите решить, и определите тип вмешательства, который, скорее всего, будет успешным. Именно здесь метаанализ устаревших экспериментальных данных лучше всего поддерживает уникальную стратегию оптимизации.

Метаанализ — смазывание маховика экспериментов?

Экспериментальный маховик имеет способ повторного использования импульса. Когда вы экспериментируете в первый раз, вам нужна большая инерция, чтобы привести вещи в движение.

Идея маховика экспериментов состоит в том, чтобы извлечь выгоду из этого импульса, чтобы запустить больше тестов и снова крутиться, становясь все лучше и лучше, проводя все больше и больше тестов.

Маховик A/B-тестирования от Microsoft — Источник

И здесь может помочь метаанализ. В маховике:

Вы запускаете тесты, чтобы проверить свои гипотезы (и, возможно, отвергнуть некоторые из них в процессе).
Измерьте ценность, которую они добавили к принятию решений.
Поощряйте больший интерес и участие в A/B-тестировании.
Инвестируйте в инфраструктуру A/B-тестирования и в улучшение качества ваших данных.
Снизьте человеческие затраты на A/B-тестирование, чтобы следующий этап выполнялся с меньшими усилиями, чем предыдущий раунд.

Но как организация, управляемая данными, вы не останавливаетесь на достигнутом, поскольку признаете силу A/B-тестирования. Вместо этого вы хотите опираться на свои первоначальные инвестиции в эксперименты, чтобы проверить или отвергнуть больше гипотез.

Если этого первоначального понимания или знаний нет, инерция, приводящая в движение ваш маховик, будет слишком велика. Обмен этими знаниями (демократизация данных A/B-тестирования) вдохновляет и позволяет другим применять экспериментальный подход, снижая барьер знаний.

Это подводит нас к пункту № 1 о том, как метаанализ смазывает маховик экспериментов:

Метаанализ может сократить время на выдвижение гипотез.
Вы можете взять то, что вы узнали, идеи и все остальное из предыдущих тестов, чтобы легко генерировать новые гипотезы. Это увеличивает количество выполняемых вами тестов и является отличным способом ускорить маховик A/B-тестирования.

Мы тратим меньше времени на переделку того, что уже установилось, и больше времени на поиск новых путей, основанных на том, что мы узнали в предыдущих экспериментах.

Метаанализ может привести к более высоким показателям прогнозирования с использованием прошлых данных.
Еще один способ, с помощью которого прошлое обучение, основанное на экспериментах, может ускорить вращение маховика экспериментов, — это когда оно сочетается с текущими данными для обоснования новых гипотез.

Это потенциально улучшает то, как наблюдаемое влияние в A/B-тестировании распространяется на будущее.

Развертывание A/B-тестирования не является гарантией получения желаемого результата, поскольку доля ложных срабатываний (FDR) для тестов с достоверностью 95 % составляет от 18 % до 25 %. И только 70% рассмотренных тестов, которые привели к такому выводу, имели достаточную мощность.

Частота ложных открытий — это доля значимых результатов A/B-тестирования, которые на самом деле не имеют никакого эффекта. Чтобы не быть ошибочно принятым за ложноположительный результат или ошибку I рода.

Наконец, метаанализ может быть способом укрепить доверие к результатам тестов, которые по сути неубедительны.
Уровни достоверности помогают вам поверить в то, что результаты ваших тестов не являются результатом чистой случайности. Если у вас его недостаточно, вы можете пометить этот тест как «неубедительный», но не торопитесь.

Почему? Статистически вы можете накапливать незначительные p-значения, чтобы получить значительный результат. Смотрите сообщение ниже:

Метаанализ имеет два основных преимущества: 1) он повышает точность оценки эффекта и 2) повышает обобщаемость результатов.
Источник: Хорошее, плохое и уродливое: метаанализ Маделон ван Вели.
Учитывая, что метаанализ регулирует и корректирует как размер эффекта, так и уровни значимости, можно использовать такие более высокие стандартные результаты так же, как и любой другой эксперимент (эксперименты), включая:
1) производить расчеты мощности/оценки размера выборки для собственных экспериментов (используя реальные данные вместо субъективных догадок)
2) принять решение об эксплойте-эксперименте. В тех случаях, когда кто-то считает, что необходима дополнительная уверенность, он может решить провести дополнительные эксперименты самостоятельно. В тех случаях, когда кто-то находит доказательства метаанализа достаточно убедительными, он может просто принять меры раньше, не проводя дополнительных экспериментов.
Якуб Линовски

При всех способах, которыми метаанализ может помочь вашей программе экспериментов набрать больше оборотов, важно помнить, что он страдает некоторыми хорошо известными ограничениями.

Если вы решите провести (и использовать) метаанализ — помните следующее

Да, объединение результатов экспериментов с помощью метааналитических методов может улучшить статистическую точность, но это не устраняет фундаментальные проблемы с исходным набором данных, такие как…

Низкое качество экспериментов, включенных в анализ

Если эксперименты, включенные в метаанализ, были плохо спланированы и содержат статистические ошибки, независимо от точности метааналитика, они получат неверные результаты.

Возможно, в A/B-тестах было неравномерное распределение размера выборки, мощность или размер выборки были недостаточными, или были признаки подглядывания — в любом случае эти результаты ошибочны.

Что вы можете сделать, чтобы обойти это ограничение, так это тщательно выбирать результаты теста. Исключите сомнительные результаты из вашего набора данных. Вы также можете пересчитать статистическую значимость и доверительные интервалы для тестов, которые вы выбрали для включения, и использовать новые значения в своем мета-анализе.

Неоднородность

Это объединяет результаты тестов, которые не следует помещать в одно и то же ведро. Например, когда методология, используемая для проведения тестов, отличается (байесовский и частотный статистический анализ, различия в платформах A/B-тестирования и т. д.).

Это обычное ограничение метаанализа, когда аналитик сознательно или неосознанно игнорирует ключевые различия между исследованиями.

Вы можете посмотреть на необработанные количественные данные для борьбы с неоднородностью. Это лучше, чем просто сводка результатов теста. Это означает пересчет результатов каждого A/B-теста, если у вас есть доступ к данным.

Предвзятость публикации

Также известная как «проблема ящика для файлов», это самая печально известная проблема метаанализа. При проведении метаанализа общедоступных данных вы ограничены объединением тех результатов, которые попали в публикацию.

Что делать с теми, кто не успел? Публикации обычно отдают предпочтение результатам, которые являются статистически значимыми и имеют значительный лечебный эффект. Когда эти данные не представлены в метаанализе, результаты отображают только то, что было опубликовано.

Вы можете определить предвзятость публикации с помощью графиков воронки и соответствующей статистики.

Итак, где вы найдете A/B-тесты, которые не попали в тематические исследования или базы данных метаанализа A/B-тестирования? Платформы A/B-тестирования лучше всего предоставляют данные о тестах независимо от результатов. Вот где удачны примеры 1 и 2 в этой статье.