정확한 A/B 테스트 결과를 위해 샘플 크기 오염을 줄이는 방법
게시 됨: 2020-08-08테스트 전략을 세우는 데 몇 시간을 보냈습니다.
당신의 팀은 가설을 세웁니다.
테스트를 실행하고 결과를 기다립니다.
그러나 당신은 당신의 테스트가 실패했음을 알게 됩니다. 결과가 더럽혀졌습니다. 하지만 어떻게?
자책하지 마세요. 테스트 세계에는 샘플 크기 오염 이라는 더러운 작은 비밀이 있습니다.
샘플 청중이 오염되면 테스트가 시작하기도 전에 무의식적으로 실패할 수 있습니다.
테스트가 실패하는 잠재적인 이유는 다양하지만 가장 실망스러운 것 중 하나는 샘플 크기 오염입니다.
이 문서는 다음을 이해하는 데 도움이 됩니다.
- 표본 크기 오염이 발생하는 이유.
- 테스트가 오염되었는지 확인하는 방법.
- 샘플 크기 오염이 발생하는 것을 최소화하기 위해 취해야 할 조치.
살펴보자…
표본 크기 101
표본 크기의 정의
샘플 크기 계산기 또는 CXL 샘플 크기 계산기를 제공하는 Convert의 A/B 테스트 기간 계산기와 같은 도구를 사용할 수 있습니다.
대부분의 온라인 계산기는 사용하기 쉽습니다. Convert의 계산기를 사용하면 세 가지 값만 연결하면 됩니다.
- 기존 전환율
- 기대되는 개선
- 신뢰 수준
예시:
기존 전환율이 3%이고 95%의 신뢰 수준에서 두 가지 변형을 테스트하는 동안 예상되는 개선이 20%인 경우, 신뢰 결과를 얻으려면 42,034개의 샘플 크기가 필요합니다. 이 테스트 그룹에 일일 방문자가 2,000명인 경우 기간 계산기에 따르면 22일이 소요됩니다.
샘플에 포함될 사람 결정
"WHO?"라는 질문에 가장 쉽게 답할 수 있는 방법은 무엇입니까? 또는 세그먼트는 현재 웹사이트 방문자의 인구 통계 및 소스를 검토하는 것입니다. 단서를 얻으려면 기존 데이터를 활용하십시오. 그들은 누구인가? 그들은 어디에서 오는가?
실험 전환과 같은 도구를 사용하면 실제로 웹사이트 방문자의 특정 세그먼트를 사용하여 테스트하고 맞춤 잠재고객을 만들 수 있습니다.
몇 가지 요인이 '누가'를 은폐하는 데 도움이 될 수 있습니다.
- 트래픽 유형
당신은 계절 트래픽을 얻을 수 있습니까? 다가오는 휴일을 기준으로 방문자의 유입이 예상됩니까? 트래픽 수가 요일에 따라 변동합니까? - 트래픽 소스
트래픽의 출처는 어디입니까? 사람들은 사이트에 들어가는 출처에 따라 다르게 행동합니다. 예를 들어 LinkedIn 방문자는 Facebook 방문자와 동일한 방식으로 사이트와 상호 작용하지 않을 수 있습니다.
소스를 기반으로 방문자 참여에 대한 개요를 보려면 Google Analytics를 조사하십시오.
- 신규 vs. 구형
통계에 따르면 재방문자가 신규 방문자보다 사이트에 더 오래 머무르는 것으로 나타났습니다. 이것이 시험에 어떤 영향을 미칠지 생각해 보십시오.
이 고려 단계의 목표는 대표 샘플 을 만드는 데 도움이 되는 것입니다.
조사 연구 방법의 백과 사전은 대표적인 샘플을 다음과 같이 정의합니다.
대표 표본은 표본이 나타내려는 대상 모집단과 관련하여 외부 타당성이 강한 표본입니다. 따라서 설문조사의 결과는 관심 있는 인구에게 자신 있게 일반화할 수 있습니다.
대표 샘플이 있는지 확인하기 위해 Convert는 최소한 하나의 비즈니스 주기에 대해 테스트를 실행할 것을 제안합니다. 이렇게 하면 테스트에서 주기 내에서 발생할 수 있는 방문자 변동을 설명할 시간이 확보됩니다.
표본 크기 오염이란 무엇입니까?
이제 표본 크기가 무엇인지 이해했으므로 표본 크기를 손상시키고 테스트를 망칠 수 있는 요인을 탐색할 수 있습니다. 이것이 표본 크기가 유효성에 영향을 미치는 방식입니다. 테스트 결과에 부정적인 영향을 미치는 샘플 크기 요인을 샘플 크기 오염이라고 합니다.
Invespcro는 샘플 오염을 다음과 같이 정의합니다.
"...테스트를 수행하는 동안 사용된 샘플 또는 데이터에 영향을 주어 A/B 테스트 데이터를 무효화하는 요소."
이 문제는 더 일반적입니다. 이 불만 사항을 보십시오.
편향된 표본
대부분의 경우 무작위 샘플링을 원합니다. 즉, 웹사이트의 각 방문자는 버킷되기 전에 특정 변형을 볼 기회가 동일합니다. 버킷에 넣으면 테스트 기간 동안 동일한 변형이 표시됩니다.
다만, 랜덤화를 잘 수행하지 않는 A/B 테스팅 툴을 사용한다면 랜덤화가 보장되지 않고 테스트가 무효화될 수 있다.
편향된 샘플링을 방지하는 간단한 방법은 무작위화 및 버킷팅을 올바르게 수행하는 Convert와 같은 우수한 A/B 테스트 도구를 사용하는 것입니다. 무작위화가 제대로 작동하는지 확인하기 위해 A/A 테스트로 테스트를 시작하십시오.
테스트의 세부 사항을 고려할 때 표본 편향의 가능성을 알고 싶습니다.
표본 크기 오염을 일으키는 원인
샘플 오염에는 타이밍, 장치, 브라우저 및 쿠키의 네 가지 일반적인 유형이 있습니다.
각각을 살펴보자...
타이밍
테스트 기간은 결과의 유효성에 영향을 미칩니다. 따라서 "A/B 테스트를 얼마나 오래 실행해야 하는지"가 일반적인 질문인 것은 놀라운 일이 아닙니다.
CRO 전문가들은 수용 가능한 벤치마크가 무엇인지에 대해 상충되는 아이디어를 가지고 있습니다. 실제로 테스트 변수는 테스트의 적절한 길이를 유도해야 합니다.
간단한 솔루션은 테스트가 실행되고 실행되도록 허용하는 것처럼 보일 수 있습니다. 그러나 이것 역시 문제를 일으킬 수 있습니다. 추가된 시간은 외부 요인으로 인한 잠재적 오염의 증가를 의미합니다.
당신은 스위트 스팟을 찾고 싶습니다.
테스트 기간과 관련된 또 다른 일반적인 실수는 테스트를 너무 일찍 중단하는 것입니다. 이것은 표본 크기 오염으로 이어지지 않을 수 있지만 테스트에 부정적인 영향을 미칠 수 있습니다.
통계적 유의성에 도달했을 때 테스트를 중단하는 경우에도 마찬가지입니다. 유효한 테스트의 경우 원하는 MDE(Minimum Detectable Effect)에 대해 계산된 샘플 크기에도 도달해야 합니다.
유사한 라인을 따라 실행 중인 테스트의 변형을 절대 중지하지 마십시오. 이것은 치명적인 오염 을 일으킬 것입니다. "중지된" 변형을 "항상 실행 중" 컨트롤과 비교할 수 없습니다. "사과와 사과"를 비교할 방법이 없을 것입니다. 테스트에서 변형을 중지했다가 나중에 다시 시작하지 마십시오.
데이터가 샘플 크기 양과 일치할 때까지 테스트를 중단하지 마십시오.
쿠키 오염
쿠키는 가장 교활한 형태의 표본 크기 오염을 유발할 수 있습니다.
techopedia의 정의에 따르면 쿠키는 다음과 같습니다.
쿠키는 웹 브라우저가 사용자의 컴퓨터에 저장하는 텍스트 파일입니다. 쿠키는 웹 응용 프로그램이 응용 프로그램 상태를 유지하는 방법입니다. 웹사이트에서 인증, 웹사이트 정보/기본 설정, 기타 검색 정보 및 웹 서버에 액세스하는 동안 웹 브라우저를 도울 수 있는 모든 것을 저장하는 데 사용됩니다. HTTP 쿠키는 브라우저 쿠키, 웹 쿠키 또는 HTTP 쿠키를 포함하여 다양한 이름으로 알려져 있습니다.
마케팅 담당자는 쿠키를 사용하여 사이트에서 방문자의 행동을 추적할 수 있습니다.
쿠키의 수명은 휘발성입니다. 방문자는 약간의 변덕에 그들을 삭제할 수 있습니다.
테스트가 오래 실행될수록 쿠키가 삭제될 가능성이 높아져 또 다른 형태의 샘플 크기 오염이 발생합니다. 이러한 현상을 완화하기 위해 Convert는 고객에게 90일 이상 테스트를 실행하지 않도록 조언합니다.
장치 오염
방문자는 모바일, 노트북, 태블릿, 데스크톱, 스마트워치 등 다양한 기기에서 사이트를 방문합니다.
브라우징 행동을 생각해보십시오. 체육관에 있는 동안 모바일 장치에서 무언가를 발견할 수 있습니다. 나중에 데스크탑 컴퓨터에서 웹사이트를 다시 방문할 수 있습니다.
이것이 A/B 테스트의 범위 내에서 발생하는 경우 실제로는 동일한 사람이 두 개의 다른 장치에서 검색하는 데 두 명의 다른 사람이 귀하의 사이트를 방문한 것처럼 보일 수 있습니다.
테스트 노력에 더 위험한 것은 이 동일한 사람이 각 장치에서 다른 변형을 볼 수 있다는 것입니다.
이것의 반대 예가 있습니다. 두 사람이 동일한 장치를 사용하여 웹사이트를 방문하면 어떻게 됩니까?
두 형제가 같은 집에 산다고 상상해 보십시오. 그들은 데스크탑 컴퓨터를 공유합니다. 둘 다 휴가를 준비하고 있으며 새 티셔츠와 신발을 주문해야 합니다. 방문 당시 전자 상거래 사이트에서 A/B 테스트가 실행 중인 경우 데이터는 이 두 사람을 단일 사용자로 다시 표시하여 샘플 크기를 손상시킵니다.
브라우저 오염
일반 사용자가 온라인에 접속할 때 동일한 웹사이트를 방문하기 위해 다른 브라우저를 사용하는 것이 A/B 테스트에 미치는 영향을 고려하지 않습니다. 그러나 Safari와 Chrome과 같이 한 브라우저에서 다른 브라우저로 동일한 웹사이트로 이동하면 다중 장치에서 발생하는 유사한 샘플 크기 오염이 발생할 수 있습니다.
그러나 대부분의 사람들이 장치당 하나의 선호하는 브라우저를 사용하기 때문에 이러한 특정 형태의 오염은 드뭅니다.
새로운 위험
브라우저, 장치 유형, 쿠키 및 테스트 기간이 가장 일반적인 샘플 크기 오염 물질이지만 새로운 오염 물질이 대화에 들어가는 것처럼 보입니다. 업계 전문가들은 봇이 샘플 크기 오염을 유발한다고 불평하고 있습니다.
고맙게도 Convert에는 강력한 봇 완화 조치가 도구에 포함되어 있어 문제가 되지 않습니다.
샘플 크기 오염을 줄이는 방법에 대한 팁
샘플 크기 오염이 주요 문제이기 때문에 많은 회사에서 사용자를 위치에 따라 다른 버킷에 배치하는 것과 같은 창의적인 수정 사항을 제시했습니다.
그러나 그러한 전술은 "사용자 무작위성" 테스트를 제거할 수 있으며 테스트 결과가 유효하다는 확신을 감소시킬 수 있습니다.
다음은 샘플 오염 가능성을 줄이기 위해 할 수 있는 몇 가지 사항입니다.
- 별도의 장치에 대해 테스트를 실행합니다.
- 별도의 브라우저에 대해 테스트를 실행합니다.
- 패턴을 식별합니다. 귀하의 데이터는 과거에 어떻게 보였습니까? 테스트 중에 유사해야 합니다. 즉, 데이터 일관성입니다.
고려해야 할 몇 가지 사항이 더 있습니다.
분산 이해
분산 및 표준 편차는 일관성과 함께 사용됩니다. 본질적으로, 그들은 당신의 숫자가 평균에서 얼마나 멀리 떨어져 있는지 알려줄 것입니다. 낮은 분산은 데이터가 평균과 일치함을 의미하므로 오염 위험이 낮아집니다.
직접 손으로 계산하거나 간단한 표준 편차 계산기를 사용할 수 있습니다.
잠재적인 샘플링 문제에 주의
샘플 크기 오염 가능성을 포함하여 A/B 테스트에는 고유한 문제가 있습니다.
잠재적인 샘플 크기 문제에 대한 지식을 통해 테스트 목표를 선택하고, 치료법을 만들고, 실험을 실행할 때 더 나은 선택을 할 수 있습니다.
이제 샘플 오염을 이길 수 있습니다
좋은 테스트 방법은 무엇이 잘못될 수 있는지 완전히 이해한 상태에서 프로젝트를 시작한다는 의미입니다.
샘플 크기 오염은 A/B 테스트를 실행할 때 경험하는 부정적인 부산물입니다. 귀하의 임무는 이러한 부정적인 영향을 최대한 줄여 성공적인 테스트를 수행할 수 있도록 하는 것입니다.
테스트가 시작되기 전에 완화가 이루어집니다.
복잡한 테스트를 지원하는 간단한 플랫폼 내에서 테스트를 분할하고, 성가신 봇과 싸우고, 우수한 무작위화 기술을 사용할 수 있는 기능을 제공하는 Convert와 같은 강력한 도구를 사용하십시오.
실험 전략과 소프트웨어의 성능에 따라 샘플 크기 오염을 얼마나 잘 최소화할 수 있는지가 달라집니다.
이제 테스트에서 이 잠재적인 사각지대를 알게 되었기 때문에 문제가 발생할 수 없습니다.