한 달에 몇 개의 A/B 테스트를 실행해야 합니까?

게시 됨: 2023-01-19
한 달에 몇 개의 A:B 테스트를 실행해야 합니까?

테스트 프로그램의 성공을 위해 고려해야 할 중요한 질문입니다.

너무 많은 테스트를 실행하면 개별 실험에서 많은 가치를 얻지 못한 채 리소스를 낭비할 수 있습니다.

그러나 테스트를 너무 적게 실행하면 더 많은 전환을 가져올 수 있는 중요한 최적화 기회를 놓칠 수 있습니다.

이 수수께끼를 감안할 때 이상적인 테스트 케이던스는 무엇입니까?

이 질문에 답하기 위해 $en$e 는 세계에서 가장 성공적이고 진보적인 실험 팀을 살펴봅니다.

아마존은 마음에 오는 그런 이름 중 하나입니다.

전자 상거래 거인은 또한 실험의 골리앗입니다. 실제로 Amazon은 1년에 12,000번 이상의 실험을 실행한다고 합니다! 이 금액은 한 달에 약 천 건의 실험으로 나뉩니다.

구글과 마이크로소프트의 빙 같은 회사들도 비슷한 속도를 유지하고 있다고 한다.

Wikipedia에 따르면 거대 검색 엔진은 각각 연간 10,000건 이상의 A/B 테스트 또는 한 달에 약 800건의 테스트를 실행합니다.

이 속도로 실행되는 것은 검색 엔진만이 아닙니다.

Booking.com은 실험에서 주목할만한 또 다른 이름입니다. 여행 예약 사이트는 1년에 25,000회 이상의 테스트를 실행하는 것으로 보고되었으며, 이는 한 달에 2,000회 이상 또는 하루에 70회 이상의 테스트에 해당합니다!

그러나 연구 결과에 따르면 평균 회사는 한 달에 2-3회만 테스트를 실행합니다.

따라서 대부분의 회사가 한 달에 몇 번만 테스트를 실행하지만 일부 세계 최고의 회사는 한 달에 수천 번 실험을 실행한다면 이상적으로는 얼마나 많은 테스트를 실행해야 합니까?

진정한 CRO 스타일에서 답은 다음과 같습니다. 상황에 따라 다릅니다.

그것은 무엇에 달려 있습니까? 고려해야 할 여러 가지 중요한 요소.

실행할 이상적인 A/B 테스트 수는 특정 상황과 샘플 크기, 테스트 아이디어의 복잡성, 사용 가능한 리소스와 같은 요인에 따라 결정됩니다.

A/B 테스트를 실행할 때 고려해야 할 6가지 요소

한 달에 실행할 테스트 수를 결정할 때 고려해야 할 6가지 필수 요소가 있습니다. 그들은 포함합니다

  • 샘플 크기 요구 사항
  • 조직 성숙도
  • 사용 가능한 리소스
  • 테스트 아이디어의 복잡성
  • 테스트 일정
  • 상호 작용 효과

각각에 대해 자세히 알아보겠습니다.

샘플 크기 요구 사항

A/B 테스트에서 샘플 크기는 신뢰할 수 있는 테스트를 실행하는 데 필요한 트래픽 양을 나타냅니다.

통계적으로 유효한 연구를 실행하려면 대규모의 대표적인 사용자 샘플이 필요합니다.

이론적으로는 소수의 사용자만 실험할 수 있지만 의미 있는 결과를 얻지는 못합니다.

샘플 크기가 작아도 여전히 통계적으로 유의미한 결과를 얻을 수 있습니다.

예를 들어 10명의 사용자만 버전 A를 보고 2가 전환된 A/B 테스트를 상상해 보십시오. 그리고 전환한 사용자가 6명인 버전 B를 본 사용자는 8명에 불과했습니다.

이 차트에서 볼 수 있듯이 결과는 통계적으로 유의미합니다.

통계적으로 유의미한 테스트 결과의 예

버전 B는 275% 더 우수한 것으로 보입니다. 그러나 이러한 결과는 그다지 신뢰할 만하지 않습니다. 샘플 크기가 너무 작아 의미 있는 결과를 제공할 수 없습니다.

연구가 부족합니다. 대규모의 대표적인 사용자 샘플이 포함되어 있지 않습니다.

테스트의 성능이 낮기 때문에 결과에 오류가 발생하기 쉽습니다. 그리고 결과가 무작위로 발생했는지 또는 한 버전이 정말 우수한지 확실하지 않습니다.

이 작은 샘플을 사용하면 잘못된 결론을 내리기 쉽습니다.

적절하게 전원이 공급되는 테스트

이 함정을 극복하기 위해 A/B 테스트는 대규모의 대표적인 사용자 샘플로 적절하게 강화되어야 합니다.

충분히 큰 것은 얼마나 큽니까?

이 질문은 몇 가지 간단한 샘플 크기 계산을 수행하여 답할 수 있습니다.

샘플 크기 요구 사항을 가장 쉽게 계산하려면 샘플 크기 계산기를 사용하는 것이 좋습니다. 거기에 많이 있습니다.

내가 가장 좋아하는 것은 유연하고 철저하기 때문에 Evan Miller의 것입니다. 또한 사용 방법을 이해할 수 있다면 거의 모든 계산기를 파악할 수 있습니다.

Evan Miller의 계산기는 다음과 같습니다.

Evan Miller 샘플 크기 계산기

계산 자체는 매우 간단하지만 계산 뒤에 숨겨진 용어를 이해하는 것은 쉽지 않습니다. 그래서 나는 복잡한 것을 명확히하려고 시도했습니다.

기준 전환율

기준 전환율은 컨트롤 또는 원본 버전의 기존 전환율입니다. A/B 테스트를 설정할 때 일반적으로 "버전 A"로 레이블이 지정됩니다.

분석 플랫폼 내에서 이 전환율을 찾을 수 있어야 합니다.

A/B 테스트를 실행한 적이 없거나 기본 전환율을 모르는 경우 가장 현명한 추측을 하십시오.

대부분의 사이트, 산업 분야 및 장치 유형에서 평균 전환율은 2~5%입니다. 따라서 기본 전환율이 확실하지 않은 경우 주의를 기울이고 2% 기준으로 시작하십시오.

기준 전환율이 낮을수록 필요한 샘플 크기가 커집니다. 그 반대.

MDE(최소 탐지 가능 효과)

MDE(Minimum Detectable Effect)는 복잡한 개념처럼 들립니다. 그러나 용어를 세 부분으로 나누면 이해하기가 훨씬 쉬워집니다.

  • 최소 = 최소
  • Detectable = 실험을 실행하여 감지 또는 찾기를 원함
  • 효과 = 대조군과 처리군 사이의 전환 차이

따라서 감지 가능한 최소 효과는 테스트를 실행하여 감지하려는 최소 전환 상승도입니다.

일부 데이터 순수주의자는 이 정의가 실제로 관심의 최소 효과(MEI)를 설명한다고 주장할 것입니다. 어떤 용어를 사용하든 목표는 테스트를 실행하여 예상되는 전환 상승도를 예상하는 것입니다.

이 연습은 매우 추론적으로 느껴질 수 있지만 이와 같은 샘플 크기 계산기 또는 Convert의 A/B 테스트 통계 계산기를 사용하여 예상 MDE를 계산할 수 있습니다.

매우 일반적인 경험 법칙으로 2-5% MDE가 합리적인 것으로 간주됩니다. 진정으로 적절하게 전원이 공급되는 테스트를 실행할 때 훨씬 더 높은 것은 일반적으로 비현실적입니다.

MDE가 작을수록 필요한 샘플 크기가 커집니다. 그 반대.

MDE는 절대량 또는 상대량으로 표현할 수 있습니다.

순수한

절대 MDE는 대조군과 변형의 전환율 간의 원시 숫자 차이입니다.

예를 들어 기준 전환율이 2.77%이고 변형이 +3% 절대 MDE를 달성할 것으로 예상하는 경우 절대 차이는 5.77%입니다.

상대적인

대조적으로 상대 효과는 변형 간의 백분율 차이를 나타냅니다.

예를 들어 기준 전환율이 2.77%이고 변형이 +3%의 상대 MDE를 달성할 것으로 예상하는 경우 상대 차이는 2.89%입니다.

일반적으로 대부분의 실험자들은 상대적 상승도를 사용하므로 일반적으로 이러한 방식으로 결과를 나타내는 것이 가장 좋습니다.

통계적 검정력 1−β

검정력은 실제로 존재한다고 가정할 때 효과 또는 전환 차이를 찾을 확률을 나타냅니다.

테스트에서 목표는 차이점이 존재하는 경우 오류 없이 의미 있게 감지할 수 있는 충분한 검정력이 있는지 확인하는 것입니다. 따라서 더 높은 전력이 항상 더 좋습니다. 그러나 단점은 더 큰 샘플 크기가 필요하다는 것입니다.

0.80의 검정력이 표준 모범 사례로 간주됩니다. 따라서 이 계산기의 기본 범위로 그대로 둘 수 있습니다.

이 양은 효과가 있는 경우 오류 없이 정확하게 감지할 확률이 80%임을 의미합니다. 따라서 효과를 제대로 감지하지 못할 확률은 20%에 불과합니다. 감수할 가치가 있는 위험.

유의 수준 α

매우 간단한 정의로, 유의 수준 알파는 긍정 오류 비율 또는 실제로 존재하지 않더라도 전환 차이가 감지되는 시간의 백분율입니다.

A/B 테스트 모범 사례로서 유의 수준은 5% 이하여야 합니다. 따라서 이 계산기의 기본값으로 그대로 둘 수 있습니다.

5% 유의 수준 α는 실제로 차이가 없을 때 대조군과 변형 간에 차이를 발견할 확률이 5%임을 의미합니다.

다시 말하지만, 감수할 가치가 있는 위험입니다.

샘플 크기 요구 사항 평가

이 수치를 계산기에 입력하면 표준 2주에서 6주 테스트 기간 동안 적절하게 테스트를 실행할 수 있는 충분한 트래픽이 사이트에 있는지 확인할 수 있습니다.

확인하려면 선호하는 분석 플랫폼으로 이동하여 제한된 기간 동안 테스트하려는 사이트 또는 페이지의 과거 평균 트래픽 속도를 살펴보십시오.

예를 들어 이 Google 애널리틱스 4(GA4) 계정에서 수명 주기 > 획득 > 획득 개요 탭으로 이동하면 2022년 10월~11월 사이의 최근 기록 기간에 사용자가 365,000명임을 확인할 수 있습니다.

GA4 사용자 수 측정기준
이 날짜 범위는 연휴 기간 동안 계절성 트래픽의 변화를 피하기 위해 사용되었습니다.

기존 기준 전환율 3.5%, 상대 MDE 5%, 표준 검정력 80%, 표준 유의 수준 5%를 기준으로 계산기는 변형당 방문자 174,369명의 샘플 크기가 필요하다는 것을 보여줍니다. 강화된 A/B 테스트:

Evan Miller 샘플 크기 계산기 예

앞으로 몇 개월 동안 트래픽 추세가 비교적 안정적이라고 가정하면 합리적인 테스트 기간 내에 사이트에서 약 365,000명의 사용자 또는 변형당 (365,000/2 변형) 182,000명의 방문자를 달성할 것으로 예상하는 것이 합리적입니다.

샘플 크기 요구 사항을 달성할 수 있으므로 테스트를 진행하고 실행할 수 있습니다.

중요한 참고 사항은 이 샘플 크기 요구 사항 확인 연습은 항상 모든 연구를 실행하기 전에 수행해야 적절하게 구동되는 테스트를 실행하기에 충분한 트래픽이 있는지 알 수 있습니다.

또한 테스트를 실행할 때 미리 계산된 샘플 크기 요구 사항에 도달하기 전에 테스트를 중지해서는 안 됩니다. 결과가 더 빨리 중요해 보이더라도 마찬가지입니다.

샘플 크기 요구 사항을 충족하기 전에 승자 또는 패자를 조기에 선언하는 것은 "엿보기"로 알려져 있으며 결과가 완전히 사라지기 전에 잘못된 결정을 내릴 수 있는 위험한 테스트 관행입니다.

트래픽이 충분한 경우 몇 개의 테스트를 실행할 수 있습니까?

테스트하려는 사이트 또는 페이지가 샘플 크기 요구 사항을 충족한다고 가정하면 몇 개의 테스트를 실행할 수 있습니까?

대답은 다시 한 번 상황에 따라 다릅니다.

Microsoft Bing의 전 실험 부사장인 Ronny Kohavi가 공유한 프레젠테이션에 따르면 Microsoft는 일반적으로 하루에 300개 이상의 실험을 실행합니다.

그러나 그들은 그것을 할 트래픽이 있습니다.

각 실험에는 100,000명 이상의 사용자가 표시됩니다.

Microsoft Bing 300 동시 테스트

사용 가능한 트래픽이 클수록 더 많은 테스트를 실행할 수 있습니다.

모든 테스트에서 적절하게 검증된 실험을 실행할 수 있을 만큼 충분히 큰 샘플 크기를 가지고 있는지 확인해야 합니다.

트래픽이 더 제한된 소규모 조직인 경우 더 적은 수의 고품질 테스트를 고려하십시오.

결국 중요한 것은 얼마나 많은 테스트를 실행하느냐가 아니라 실험 결과입니다.

샘플 크기 요구 사항을 충족할 수 없는 경우의 옵션

샘플 크기 요구 사항을 충족할 수 없다는 사실을 알게 되더라도 초조해하지 마십시오. 실험은 당신을 위한 것이 아닙니다. 다음과 같은 몇 가지 잠재적인 실험 옵션이 있습니다.

  1. 트래픽 획득에 집중

대규모 사이트라도 특정 페이지의 트래픽이 적을 수 있습니다.

사이트 트래픽 또는 특정 페이지의 트래픽이 샘플 크기 요구 사항을 충족하지 않는 경우 더 많은 트래픽을 확보하는 데 집중하는 것이 좋습니다.

이를 위해 공격적인 검색 엔진 최적화(SEO) 전술을 수행하여 검색 엔진에서 더 높은 순위를 매기고 더 많은 클릭을 얻을 수 있습니다.

Google Ads, LinkedIn 광고 또는 배너 광고와 같은 채널을 통해 유료 트래픽을 확보할 수도 있습니다.

이러한 획득 활동은 모두 웹 트래픽을 늘리는 데 도움이 되며 사용자와 가장 잘 전환되는 항목을 테스트할 수 있는 강력한 기능을 제공합니다.

그러나 샘플 크기 요구 사항을 충족하기 위해 유료 트래픽을 사용하는 경우 트래픽 소스에 따라 방문자 행동이 다를 수 있으므로 테스트 결과를 트래픽 유형별로 분류하는 것이 좋습니다.

  1. A/B 테스트가 귀하에게 가장 적합한 실험 방법인지 평가하십시오.

A/B 테스트는 실험의 황금 표준으로 간주되지만 결과는 그 뒤에 있는 데이터만큼만 우수합니다.

제대로 구동되는 테스트를 실행하기에 트래픽이 충분하지 않은 경우 A/B 테스트가 실제로 최상의 실험 옵션인지 고려할 수 있습니다.

훨씬 더 작은 샘플이 필요하고 여전히 매우 가치 있는 최적화 통찰력을 얻을 수 있는 다른 연구 기반 접근 방식이 있습니다.

사용자 경험(UX) 테스트, 소비자 설문 조사, 출구 조사 또는 고객 인터뷰는 A/B 테스트의 대안으로 시도할 수 있는 몇 가지 다른 실험 양식입니다.

  1. Realize 결과는 방향성 데이터만 제공할 수 있습니다.

그러나 A/B 테스트에 대한 의도가 있다면 여전히 테스트를 실행할 수 있습니다.

결과가 완전히 정확하지 않을 수 있으며 완전히 신뢰할 수 있는 결과가 아니라 가능성이 있는 결과를 나타내는 "방향성 데이터"만 제공한다는 점을 알아두십시오.

결과가 완전히 사실이 아닐 수 있으므로 시간 경과에 따른 전환 효과를 면밀히 모니터링해야 합니다.

즉, 정확한 전환 수치보다 종종 더 중요한 것은 은행 계좌의 숫자입니다. 값이 올라가면 수행 중인 최적화 작업이 제대로 작동하고 있음을 알 수 있습니다.

성숙도 테스트

샘플 크기 요구 사항 외에도 테스트 케이던스에 영향을 미치는 또 다른 요소는 테스트 조직의 성숙도입니다.

테스트 성숙도는 조직 문화 내에서 실험이 얼마나 확고하고 실험 관행이 얼마나 발전했는지 설명하는 데 사용되는 용어입니다.

한 달에 수천 건의 테스트를 실행하는 Amazon, Google, Bing 및 Booking과 같은 조직에는 진보적이고 성숙한 테스트 팀이 있습니다.

그것은 우연이 아닙니다.

테스트 주기는 조직의 성숙도 수준과 밀접한 관련이 있는 경향이 있습니다.

실험이 조직 내에 뿌리내리면 경영진은 이에 전념합니다. 또한 조직 전체의 직원은 일반적으로 실험을 지원하고 우선 순위를 지정하도록 권장되며 테스트 아이디어를 제공하는 데 도움이 될 수도 있습니다.

이러한 요소가 결합되면 편리한 테스트 프로그램을 실행하는 것이 훨씬 쉬워집니다.

테스트를 늘리고 싶다면 조직의 성숙도를 먼저 살펴보는 것이 도움이 될 수 있습니다.

다음과 같은 질문을 평가하여 시작하십시오.

  • C-Suite에게 실험은 얼마나 중요합니까?
  • 실험을 촉진하기 위해 어떤 리소스가 제공됩니까?
  • 테스트 업데이트를 전달하는 데 사용할 수 있는 통신 채널은 무엇입니까?

대답이 "없음"이거나 그에 가깝다면 먼저 테스트 문화를 만드는 작업을 고려하십시오.

조직이 보다 진보적인 실험 문화를 채택함에 따라 자연스럽게 테스트 주기를 늘리는 것이 더 쉬워질 것입니다.

실험 문화를 만드는 방법에 대한 제안은 이 문서 및 이 문서와 같은 리소스를 확인하세요.

리소스 제약

이미 어느 정도의 조직적 동의가 있다고 가정하면 다음 문제는 자원 제약입니다.

시간, 돈, 인력은 모두 테스트 능력을 제한할 수 있는 제한 사항입니다. 그리고 빨리 테스트하십시오.

리소스 제약을 극복하려면 테스트 복잡성을 평가하는 것부터 시작하는 것이 도움이 될 수 있습니다.

단순 테스트와 복합 테스트의 균형

실험자로서 당신은 아주 간단한 것부터 매우 복잡한 것까지 다양한 테스트를 실행하도록 선택할 수 있습니다.

간단한 테스트에는 복사 또는 색상과 같은 요소 최적화, 이미지 업데이트 또는 페이지의 단일 요소 이동이 포함될 수 있습니다.

복잡한 테스트에는 여러 요소 변경, 페이지 구조 변경 또는 전환 퍼널 업데이트가 포함될 수 있습니다. 이러한 종류의 테스트에는 종종 딥 코딩 작업이 필요합니다.

수천 개의 A/B 테스트를 실행하면서 약 ⅗ 더 간단한 테스트와 ⅖ 더 복잡한 테스트를 동시에 실행하는 것이 유용하다는 것을 알게 되었습니다.

간단한 테스트를 통해 빠르고 쉽게 승리할 수 있습니다.

그러나 더 큰 변화와 함께 더 큰 테스트는 종종 더 큰 효과를 낳습니다. 실제로 일부 최적화 연구에 따르면 실행하는 테스트가 더 많고 복잡할수록 성공 가능성이 높아집니다. 따라서 큰 스윙 테스트를 자주 수행하는 것을 두려워하지 마십시오.

테스트를 설계하고 구축하는 데 더 많은 리소스를 사용하게 된다는 단점이 있습니다. 그리고 그것이 이길 것이라는 보장도 없습니다.

사용 가능한 인적 자원을 기반으로 테스트

1인 CRO 전략가이거나 소규모 팀과 함께 작업하는 경우 역량이 제한됩니다. 간단하든 복잡하든 한 달에 2-5번의 테스트가 당신을 두드리는 것을 발견할 수 있습니다.

반대로 연구원, 전략가, 디자이너, 개발자 및 QA 전문가로 구성된 전담 팀이 있는 조직의 경우 한 달에 수십에서 수백 건의 테스트를 실행할 수 있습니다.

실행해야 하는 테스트 수를 결정하려면 인적 자원 가용성을 평가하십시오.

평균적으로 간단한 테스트는 아이디어 구상, 와이어프레임, 설계, 개발, 구현, QA 및 결과 모니터링에 3-6시간이 소요될 수 있습니다.

반면에 매우 복잡한 테스트는 15-20시간 이상 걸릴 수 있습니다.

한 달에 약 730시간이 있으므로 이 귀중한 시간 동안 실행하는 테스트 및 테스트 수에 대해 매우 계산하고 싶을 것입니다.

테스트 아이디어 계획 및 우선순위 지정

최적의 테스트 구조를 계획하는 데 도움이 되도록 PIE, ICE 또는 PXL과 같은 테스트 우선 순위 지정 프레임워크를 사용하는 것이 좋습니다.

이러한 프레임워크는 최고의 테스트 아이디어 순위를 매기고, 구현 용이성을 평가하고, 어떤 테스트가 전환율을 높일 가능성이 가장 높은지 평가하기 위한 정량적 기법을 제공합니다.

이 평가를 수행하면 우선 순위가 지정된 테스트 아이디어 목록이 다음과 같이 표시됩니다.

CXL의 PXL 우선 순위 지정 프레임워크

상위 테스트 아이디어의 순위가 매겨지면 테스트 일정과 다음 단계를 시각적으로 계획하기 위한 테스트 로드맵을 만드는 것이 좋습니다.

로드맵은 다음과 같을 수 있습니다.

테스트 로드맵 예시

다음을 포함해야 합니다.

  • 페이지별로 테스트하려는 아이디어 목록입니다.
  • 각 테스트 단계(설계, 개발, QA 등)에 예상되는 시간입니다.
  • 미리 계산된 샘플 크기 요구 사항에 따라 각 테스트를 실행할 계획 기간입니다. 이와 같은 테스트 기간 계산기를 사용하여 테스트 기간 요구 사항을 계산할 수 있습니다.

테스트 아이디어를 매핑하면 테스트 주기와 용량을 보다 정확하게 결정할 수 있습니다.

테스트 로드맵을 채울 때 실행할 수 있는 테스트 수가 사용 가능한 리소스를 기반으로 한다는 것이 매우 명확해질 수 있습니다.

한 번에 여러 테스트를 실행해야 합니까?

하지만 무언가를 할 수 있다고 해서 반드시 해야 한다는 의미는 아닙니다.

한 번에 여러 테스트를 실행하는 경우 최상의 접근 방식에 대한 많은 논쟁이 있습니다.

Experiment Nation의 리더인 Rommil Santiago가 작성한 이와 같은 기사는 논쟁의 여지가 있는 질문을 제기합니다. 여러 A/B 테스트를 동시에 실행해도 됩니까?

일부 실험자들은 절대 그렇지 않다고 말할 것입니다!

그들은 한 번에 한 페이지, 한 테스트만 실행해야 한다고 주장할 것입니다. 그렇지 않으면 효과를 제대로 분리할 수 없습니다.

나는 거의 10년 전에 그렇게 배웠기 때문에 이 캠프에 있었습니다.

한 번에 한 페이지에서 한 번의 변경으로 한 번의 테스트만 실행해야 한다는 것이 나에게 엄격하게 전달되었습니다. 나는 수년 동안 이러한 사고 방식으로 작업했습니다. 더 많은 결과를 더 빨리 원했던 불안한 고객을 당혹스럽게 만들었습니다.

그러나 Facebook의 전 데이터 과학자이자 현재 Statsig의 수석 데이터 과학자인 Timothy Chan의 이 기사는 제 생각을 완전히 바꿔 놓았습니다.

그의 작품에서 Chan은 상호 작용 효과가 과대 평가되었다고 주장합니다.

실제로 여러 테스트를 동시에 실행하는 것이 문제가 아닌 것은 아닙니다. 테스트할 수 있는 유일한 방법입니다!

이 입장은 Chan이 소셜 미디어 거대 기업이 동시에 수백 건의 실험을 성공적으로 실행하는 것을 보았던 Facebook 시절의 데이터로 뒷받침되며, 그 중 많은 실험이 같은 페이지에서도 이루어집니다.

Ronny Kohavi 및 Hazjier Pourkhalkhali와 같은 데이터 전문가는 다음과 같이 동의합니다. 상호 작용 효과는 거의 없습니다. 그리고 실제로 성공 여부를 테스트하는 가장 좋은 방법은 지속적으로 여러 테스트를 여러 번 실행하는 것입니다.

따라서 테스트 케이던스를 고려할 때 중복 테스트의 상호 작용 효과에 대해 걱정하지 마십시오. 자유롭게 테스트하십시오.

요약

A/B 테스트에는 실행해야 하는 최적의 A/B 테스트 수가 없습니다.

이상적인 숫자는 고유한 상황에 적합한 숫자입니다.

이 수치는 사이트의 샘플 크기 제약, 테스트 아이디어의 복잡성, 사용 가능한 지원 및 리소스를 비롯한 여러 요인을 기반으로 합니다.

결국, 실행하는 테스트의 수가 아니라 테스트의 품질과 얻은 결과가 중요합니다. 큰 효과를 가져오는 단일 테스트는 바늘을 움직이지 않는 몇 가지 결정적이지 않은 테스트보다 훨씬 더 가치가 있습니다.

테스트는 양보다 질에 관한 것입니다!

A/B 테스트 프로그램에서 최대한의 가치를 얻는 방법에 대한 자세한 내용은 이 변환 기사를 확인하십시오.