일반적인 A/B 테스팅 실수 57가지와 이를 피하는 방법
게시 됨: 2021-06-15A/B 테스트를 실행하고 있지만 제대로 작동하는지 확신이 서지 않습니까?
실패한 캠페인에서 귀중한 시간을 낭비하지 않도록 A/B 테스트 시 일반적인 실수를 배우고 싶습니까?
좋은 소식입니다! 이 기사에서는 우리가 흔히 볼 수 있는 57가지(때로는 흔하지 않은) A/B 테스트 실수를 안내해 드릴 것입니다.
이를 3가지 주요 섹션으로 분류했습니다.
- 테스트를 시작하기 전의 실수,
- 테스트 중 발생할 수 있는 문제,
- 그리고 테스트가 끝나면 저지를 수 있는 오류.
당신은 단순히 읽고 이러한 중 하나를 직접 만들 수 있는지 확인할 수 있습니다.
그리고 기억하세요:
모든 실패는 테스트와 설정 실수 모두에서 귀중한 교훈입니다. 열쇠는 그들에게서 배우는 것입니다!
그럼 본격적으로...
- 테스트를 실행하기도 전에 저지를 수 있는 일반적인 A/B 테스트 실수
- #1. 테스트하기 전에 라이브로 푸시하기!
- #2. 실제 A/B 테스트를 실행하지 않음
- #삼. 도구가 작동하는지 테스트하지 않음
- #4. 저품질 도구 및 콘텐츠 플래싱 사용
- #5. 테스트 QA 없음
- #6. 새로운 치료법/변이가 효과가 있습니까?
- #7. 가설을 따르지 않고 오래된 것을 테스트
- #8. 검증할 수 없는 가설을 가지고
- #9. 시험에 대한 명확한 목표를 미리 설정하지 않음
- #10. 피상적인 지표에 집중
- #11. 테스트 아이디어를 형성하기 위해 양적 데이터만 사용
- #12. 경쟁자 모방
- #13. '업계 모범 사례'만 테스트
- #14. 임팩트가 큰 큰 보상/낮은 열매가 있을 때 작은 임팩트 작업에 우선 집중
- #15. 한 번에 여러 항목을 테스트하고 어떤 변경 사항이 결과를 일으켰는지 모름
- #16. 적절한 사전 테스트 분석을 실행하지 않음
- #17. 테스트에 잘못된 레이블 지정
- #18. 잘못된 URL에 대한 테스트 실행
- #19. 테스트에 임의 표시 규칙 추가
- #20. 목표에 대한 잘못된 트래픽 테스트
- #21. 재방문자를 테스트에서 제외하지 못하고 결과가 왜곡됨
- #22. 테스트에서 IP를 제거하지 않음
- #23. 대조군 변형을 세분화하지 않음(네트워크 효과)
- #24. 계절별 이벤트 또는 주요 사이트/플랫폼 이벤트 중 테스트 실행
- #25. 문화적 차이 무시
- #26. 동시에 여러 연결된 캠페인 실행
- #27. 동일하지 않은 트래픽 가중치
- 테스트 중 저지를 수 있는 일반적인 A/B 테스트 실수
- #28. 정확한 결과를 얻기에 충분히 오래 실행되지 않음
- #29. 헬리콥터 모니터링/피킹
- #30. 사용자 피드백을 추적하지 않음(테스트가 직접적이고 즉각적인 조치에 영향을 미치는 경우 특히 중요)
- #31. 테스트 중간에 변경하기
- #32. 테스트 중간에 트래픽 할당 % 변경 또는 저성과자를 제거
- #33. 정확한 결과가 나왔을 때 테스트를 중단하지 않음
- #34. 변화를 잃는 데 감정적으로 투자하기
- #35. 테스트를 너무 오래 실행하고 추적이 떨어짐
- #36. 테스트를 중지/구현할 수 있는 도구를 사용하지 않습니다!
- 테스트가 완료된 후 저지를 수 있는 일반적인 A/B 테스트 실수
- #37. 한번의 테스트 후 포기!
- #38. 모든 버전을 테스트하기 전에 좋은 가설 포기
- #39. 항상 큰 승리를 기대합니다
- #40. 시험 후 유효성을 확인하지 않음
- #41. 결과를 올바르게 읽지 않음
- #42. 세그먼트별 결과를 보지 않음
- #43. 결과에서 배우지 않음
- #44. 패자를 데려가
- #45. 결과에 대한 조치를 취하지 않음
- #46. 승리에 대해 반복하지 않고 개선하지 않음
- #47. 다른 분야나 부서에서 수상한 결과를 공유하지 않음
- #48. 다른 부서에서 이러한 변경 사항을 테스트하지 않음
- #49. 한 페이지에 너무 많은 반복
- #50. 테스트가 충분하지 않습니다!
- #51. 테스트를 문서화하지 않음
- #52. 오탐(false positive)을 잊어버리고 거대한 상승 캠페인을 다시 확인하지 않음
- #53. 다운라인 결과를 추적하지 않음
- #54. 치료 결과를 편향시킬 수 있는 우선성 및 참신성 효과를 설명하지 못함
- #55. 실행 고려 기간 변경
- #56. X 시간 후에 다시 테스트하지 않음
- #57. 제품이 아닌 경로만 테스트
- 결론
테스트를 실행하기도 전에 저지를 수 있는 일반적인 A/B 테스트 실수
#1. 테스트하기 전에 라이브로 푸시하기!
멋진 새 페이지나 웹사이트 디자인이 있을 수 있으며 실제로 테스트하지 않고 라이브로 푸시하고 싶을 수 있습니다.
잠시만요!
빠른 테스트를 실행하여 먼저 어떻게 작동하는지 확인하십시오. 일부 데이터를 얻지 못한 채 급진적인 변화를 실시간으로 추진하고 싶지 않다면 판매 및 전환을 잃을 수 있습니다.
때때로 그 새로운 변화로 인해 성능이 크게 저하될 수 있습니다. 따라서 먼저 빠른 테스트를 수행하십시오.
#2. 실제 A/B 테스트를 실행하지 않음
A/B 테스트는 제어 페이지 및 해당 페이지의 변형에 대한 단일 트래픽 소스를 실행하여 작동합니다. 목표는 구현한 변경 사항이 잠재고객의 전환율을 높이고 조치를 취하도록 만드는지 확인하는 것입니다.
문제는 이 테스트가 통제되고 공정한지 확인하려면 특정 매개변수를 사용하여 해당 테스트를 실행해야 한다는 것입니다. 한 테스트에 영향을 미치고 다른 테스트에는 영향을 미치지 않는 외부 요인이 없도록 동일한 기간 동안 캠페인을 조회하는 동일한 트래픽 소스가 필요합니다.
어떤 사람들은 테스트를 순서대로 실행하는 실수를 합니다. 그들은 X 시간 동안 현재 페이지를 실행한 다음 X 시간 동안 새 버전을 실행한 다음 차이를 측정합니다.
이러한 테스트 기간 동안 많은 일이 발생할 수 있으므로 이러한 결과는 완전히 정확하지 않습니다. 새로운 트래픽이 급증하고 이벤트를 실행하여 2개의 페이지가 완전히 다른 대상과 결과를 갖게 될 수 있습니다.
따라서 두 버전 간에 트래픽을 분할하고 정확히 동시에 테스트하는 실제 A/B 테스트를 실행하고 있는지 확인하십시오.
#삼. 도구가 작동하는지 테스트하지 않음
100% 정확한 테스트 도구는 없습니다. 시작할 때 할 수 있는 가장 좋은 방법은 A/A 테스트를 실행하여 도구가 얼마나 정확한지 확인하는 것입니다.
어떻게? 단일 페이지 간에 트래픽을 50:50으로 분할하는 테스트를 실행하기만 하면 됩니다. (특정 결과를 측정할 수 있도록 잠재고객이 전환할 수 있는 페이지인지 확인하세요.)
왜요?
두 잠재고객이 정확히 동일한 페이지를 보고 있기 때문에 전환 결과는 테스트의 양쪽 모두에서 동일해야 합니다. 그렇죠?
글쎄, 때로는 그렇지 않습니다. 이는 도구가 잘못 설정되었을 수 있음을 의미합니다. 따라서 캠페인을 실행하기 전에 테스트 도구를 확인하십시오.
#4. 저품질 도구 및 콘텐츠 플래싱 사용
일부 도구는 다른 도구만큼 좋지 않습니다. 그들은 작업을 수행하지만 트래픽 부하 또는 '깜박임'과 깜박임으로 어려움을 겪습니다.
이로 인해 잠재적인 승리 변형이 있더라도 실제로 테스트가 실패할 수 있습니다.
페이지의 이미지를 분할 테스트한다고 가정해 보겠습니다. 제어 페이지는 잘 로드되지만 새 테스트 이미지와 원본 사이에서 변형이 1초 미만 동안 깜박입니다. (또는 사용자가 페이지를 위아래로 스크롤할 때마다.)
이것은 주의를 산만하게 하고 신뢰 문제를 일으켜 전환율을 낮출 수 있습니다.
실제로 새 이미지는 이론상 더 잘 변환될 수 있지만 도구 깜박임으로 인해 결과가 낮아져 해당 이미지를 부정확하게 테스트할 수 있습니다.
테스트할 수 있는 충분한 도구가 있는지 확인하십시오.
(이것은 Google이 현재 깜박이거나 움직이는 요소가 없는 사이트에 대한 순위를 조정하고 있을 정도로 중요한 사용자 경험 요소입니다.)
#5. 테스트 QA 없음
아주 간단한 실수지만 모든 것이 제대로 작동하는지 확인하셨나요?
- 판매 과정을 거쳤습니까?
- 다른 사람이 있습니까? (그리고 캐시되지 않은 기기의 경우 때때로 브라우저에 저장된 내용이 페이지의 모양과 다를 수 있기 때문입니다.)
- 페이지 로딩은 괜찮습니까? 느린가요? 디자인이 엉망인가요?
- 모든 버튼이 작동합니까?
- 수익 추적이 작동합니까?
- 페이지가 여러 기기에서 작동하는지 확인하셨나요?
- 문제가 발생하면 오류 보고 기능이 있습니까?
캠페인에 트래픽을 실행하기 전에 이 모든 것을 확인할 가치가 있습니다.
A/B 테스트를 위한 품질 보증 체크리스트를 받아보세요. 테스트를 QA할 때마다 다시 보고 싶어지는 채울 수 있는 PDF입니다.
#6. 새로운 치료법/변이가 효과가 있습니까?
마찬가지로 테스트를 실행하기 전에 새 변형이 작동하는지 확인하고 테스트했습니까?
QA 테스트에서 간과되는 부분일 수 있지만 캠페인은 종종 깨진 버튼, 오래된 링크 등으로 실행될 수 있습니다. 먼저 확인한 다음 테스트하십시오.
#7. 가설을 따르지 않고 오래된 것을 테스트
어떤 사람들은 깊이 생각하지 않고 아무 것도 테스트하지 않습니다.
그들은 변경에 대한 아이디어를 얻고 그것을 테스트하기를 원하지만 페이지가 현재 어떻게 전환되고 있는지 또는 테스트 중인 변경이 왜 차이를 만들 수 있는지에 대한 실제 분석이 없습니다. (전환율을 낮추었지만 아직 추적한 기준 결과가 없기 때문에 알지 못하는 것일 수 있습니다.)
문제가 있는 위치, 문제의 원인 및 해결 방법에 대한 가설을 세우면 테스트 프로그램이 크게 달라질 것입니다.
#8. 검증할 수 없는 가설을 가지고
모든 가설이 옳은 것은 아닙니다. 이건 괜찮아. 사실 이 단어는 문자 그대로 '나는 X 정보를 기반으로 한 아이디어가 있고 Z 상황에서 Y가 발생할 수 있다고 생각합니다'라는 의미입니다.
그러나 테스트를 통해 입증되거나 반증될 수 있는 테스트 가능한 가설이 필요합니다. 검증 가능한 가설은 혁신을 실행하고 적극적인 실험을 촉진합니다. 그들은 성공(이 경우 당신의 예감이 맞았음) 또는 실패로 이어질 수 있습니다. 그러나 그들은 당신에게 통찰력을 줄 것입니다. 테스트를 더 잘 실행해야 하거나 데이터가 잘못되었거나 잘못 읽혔거나 훨씬 더 잘 작동할 수 있는 새 테스트에 대한 통찰력을 제공하는 작동하지 않는 것을 발견했음을 의미할 수 있습니다.
#9. 시험에 대한 명확한 목표를 미리 설정하지 않음
일단 가설이 있으면 이를 사용하여 달성하려는 특정 결과에 맞출 수 있습니다.
때때로 사람들은 캠페인을 실행하고 어떤 변화가 있는지 확인하기만 하면 되지만, 어떤 특정 요소에서 상승 효과를 보고 싶은지 명확하면 더 많은 리드/전환 또는 판매를 얻을 수 있습니다.
(이렇게 하면 중요한 요소가 떨어지는 것을 볼 수 없지만 테스트가 '더 많은 몫을 얻었기' 때문에 이기는 것으로 간주합니다.)
말하자면…
#10. 피상적인 지표에 집중
테스트는 항상 Guardrail 지표 또는 판매에 직접적인 영향을 미치는 일부 요소와 연결되어야 합니다. 리드가 더 많다면 리드의 가치와 전환율을 높이는 가치를 달러 단위로 알아야 합니다.
동시에 측정 가능한 결과에 연결되지 않거나 유도하지 않는 측정항목은 일반적으로 피해야 합니다. 더 많은 Facebook 좋아요가 반드시 더 많은 판매를 의미하는 것은 아닙니다. 해당 소셜 공유 버튼을 제거하고 얼마나 많은 리드를 얻을 수 있는지 지켜보십시오. 허영 메트릭을 조심하고 하나의 누출이 수정되었다고 해서 다른 곳에서도 해결할 수 있는 다른 누출이 없다는 것을 의미하지는 않습니다!
다음은 실험 프로그램에 대한 Ben Labay의 일반적인 가드레일 메트릭 목록입니다.
#11. 테스트 아이디어를 형성하기 위해 양적 데이터만 사용
아이디어를 얻기 위해 양적 데이터를 사용하는 것은 훌륭하지만 약간의 결함도 있습니다. 특히 우리가 사용하는 유일한 데이터가 분석에서 나온 것이라면 더욱 그렇습니다.
왜요?
우리는 데이터를 통해 X명의 사람들이 클릭하지 않았다는 것을 알 수 있지만 그 이유는 모를 수도 있습니다.
- 버튼이 페이지 아래에 너무 낮습니까?
- 불명확하다?
- 시청자가 원하는 것과 일치합니까?
- 심지어 작동합니까?
최고의 테스터는 또한 청중의 말을 경청합니다. 그들은 자신에게 필요한 것, 앞으로 나아가게 하는 것, 방해하는 것을 찾은 다음 이를 사용하여 새로운 아이디어, 테스트 및 서면 사본을 공식화합니다.
때때로 사용자는 신뢰 문제와 자기 의심으로 인해 보류됩니다. 다른 경우에는 선명도와 깨진 형태 또는 잘못된 디자인입니다. 핵심은 정량적 데이터가 항상 알 수 있는 것은 아니므로 항상 청중에게 물어보고 계획을 세우는 데 사용하십시오.
#12. 경쟁자 모방
비밀에 대한 준비가 되셨습니까?
대부분의 경우 경쟁자들은 그저 윙윙거리고 있습니다. 장기간 리프트 캠페인을 실행한 사람이 없으면 아이디어에 데이터를 사용하지 않고 효과가 있는지 확인하기 위해 노력할 수 있습니다.
그리고 그때에도 그들에게 효과가 있는 것이 당신에게는 효과가 없을 수도 있습니다. 네, 영감을 얻기 위해 그것들을 사용하십시오. 그러나 테스트 아이디어를 당신이 보고 있는 것만으로 제한하지 마십시오. 영감을 얻기 위해 업계 외부로 나가서 그것이 몇 가지 가설을 촉발하는지 확인할 수도 있습니다.
#13. '업계 모범 사례'만 테스트
다시 말하지만, 한 사람에게 효과가 있는 것이 항상 다른 사람에게 효과가 있는 것은 아닙니다.
예를 들어 슬라이더 이미지는 일반적으로 성능이 좋지 않지만 일부 사이트에서는 실제로 더 많은 전환을 유도할 수 있습니다. 모든 것을 테스트하십시오. 잃을 것도 없고 얻을 것도 없습니다.
#14. 임팩트가 큰 큰 보상/낮은 열매가 있을 때 작은 임팩트 작업에 우선 집중
우리 모두는 사소한 것에 집중하는 죄를 범할 수 있습니다. 더 잘 수행하고 레이아웃 디자인과 이미지, 버튼 색상까지 테스트하려는 페이지가 있을 수 있습니다. (저는 개인적으로 5번째 반복에 있는 판매 페이지를 가지고 있습니다.)
문제는 지금 테스트해야 할 훨씬 더 중요한 페이지가 있다는 것입니다.
무엇보다도 영향을 우선시:
- 이 페이지가 판매에 직접적인 영향을 미칩니까?
- 판매 프로세스에서 실적이 크게 저조한 다른 페이지가 있습니까?
그렇다면 먼저 그것에 집중하십시오.
판매 페이지의 1% 상승도 훌륭하지만 판매 페이지의 20% 상승은 훨씬 더 중요할 수 있습니다. (특히 해당 페이지가 대부분의 청중을 잃고 있는 경우)
때때로 우리는 더 많은 리프트를 찾는 것뿐만 아니라 병목 현상을 대신 해결하기 위해 찾습니다.
가장 큰 영향을 미치고 가장 낮은 매달린 과일을 먼저 테스트하고 개선하십시오. 그것이 에이전시가 하는 일이며 사내 팀과 동일한 수의 테스트를 수행하지만 더 높은 ROI를 제공하는 이유입니다. 에이전시는 동일한 양의 테스트에 대해 21% 더 많은 승리를 얻습니다!
#15. 한 번에 여러 항목을 테스트하고 어떤 변경 사항이 결과를 일으켰는지 모름
한 번에 여러 항목을 변경하고 전체 페이지를 다시 디자인하는 급진적인 테스트를 수행하는 데 아무런 문제가 없습니다.
사실, 이러한 급진적인 재설계는 트래픽이 적은 사이트, 특히 정체 상태에 있고 더 이상 리프트를 얻을 수 없는 경우에도 ROI에 가장 큰 영향을 미칠 수 있습니다.
그러나 모든 A/B 테스트가 이와 같이 급진적인 변화를 위한 것은 아니라는 점을 명심하십시오. 99%의 경우 우리는 다음과 같이 단 하나의 변경 사항을 테스트하고 있습니다.
- 새로운 헤드라인
- 새 이미지
- 동일한 콘텐츠의 새로운 레이아웃
- 새로운 가격 책정 등
단일 요소 테스트를 수행할 때 핵심은 바로 그것입니다. 무엇이 차이를 만드는지 보고 배울 수 있도록 테스트를 단 하나의 요소 변경으로 유지하십시오. 변경 사항이 너무 많고 무엇이 효과가 있었는지 모릅니다.
#16. 적절한 사전 테스트 분석을 실행하지 않음
테스트 그룹에 방문자가 충분합니까? 시험이 당신의 가치가 있습니까?
수학을 해! 테스트를 실행하기 전에 트래픽이 충분한지 확인하십시오. 그렇지 않으면 시간과 비용이 낭비될 뿐입니다. 트래픽이 부족하거나 민감도가 낮거나(또는 둘 다) 많은 테스트가 실패합니다.
사전 테스트 분석을 수행하여 실험에 대한 샘플 크기 및 감지 가능한 최소 효과를 결정합니다. Convert와 같은 A/B Testing Significance Calculator는 테스트를 위한 샘플 크기와 MDE를 알려줄 것이며 실행할 가치가 있는지 판단하는 데 도움이 될 것입니다. 또한 이 정보를 사용하여 테스트를 실행해야 하는 기간과 테스트의 성공 여부를 결론짓기 전에 놓치고 싶지 않은 상승도를 결정할 수 있습니다.
#17. 테스트에 잘못된 레이블 지정
아주 간단한 실수지만 발생합니다. 테스트 레이블을 잘못 붙인 다음 잘못된 결과를 얻습니다. 변형이 승리하지만 이름이 컨트롤로 지정되면 승리를 구현하지 않고 패자와 함께 있게 됩니다!
항상 두 번 확인하십시오!
#18. 잘못된 URL에 대한 테스트 실행
또 다른 간단한 실수. 페이지 URL이 잘못 입력되었거나 실제 버전이 아닌 변경한 '테스트 사이트'에서 테스트가 실행 중입니다.
당신에게는 괜찮아 보일지 모르지만 실제로 청중에게는 로드되지 않습니다.
#19. 테스트에 임의 표시 규칙 추가
다시 말하지만, 치료와 함께 한 가지만 테스트해야 합니다.
이미지인 경우 이미지를 테스트합니다. 사람들이 두 페이지를 모두 볼 수 있는 시간을 포함하여 다른 모든 것은 동일해야 합니다!
일부 도구를 사용하면 하루 중 다른 시간을 테스트하여 다른 시간대에 트래픽이 어떻게 수행되는지 확인할 수 있습니다. 이는 사이트에서 트래픽이 가장 많이 발생하는 시기를 확인하려는 경우에 유용하지만 페이지를 보는 사람에 따라 페이지가 분할되고 다른 유사 콘텐츠가 있는 경우에는 유용하지 않습니다.
예를 들어, 대부분의 비즈니스 블로그와 마찬가지로 주말에는 자체 블로그 트래픽이 감소합니다.
제어 페이지에서 월-수에 테스트를 실행한 다음 치료에 금-일에서 트래픽을 표시한다고 상상해 보세요. 테스트할 트래픽이 훨씬 낮고 결과가 다를 수 있습니다.
#20. 목표에 대한 잘못된 트래픽 테스트
이상적으로는 테스트를 실행할 때 청중의 단일 세그먼트만 테스트하고 있는지 확인하는 것이 좋습니다. 일반적으로 새로운 자연 방문자가 사이트에서 처음으로 어떻게 반응하는지 확인합니다.
때로는 반복 방문자, 이메일 구독자 또는 유료 트래픽을 테스트하고 싶을 수도 있습니다. 트릭은 한 번에 하나만 테스트하여 해당 그룹이 해당 페이지에서 수행하는 방식을 정확하게 파악할 수 있도록 하는 것입니다.
테스트를 설정할 때 함께 작업할 대상을 선택하고 재방문자와 같이 결과를 오염시킬 수 있는 다른 대상을 제거하십시오.
#21. 재방문자를 테스트에서 제외하지 못하고 결과가 왜곡됨
우리는 이것을 표본 오염이라고 부릅니다.
기본적으로 방문자가 귀하의 사이트 페이지를 보고 돌아와서 귀하의 유사 콘텐츠를 본다면 방문자는 그 중 하나만 본 경우와 매우 다르게 반응할 것입니다.
이러한 추가 상호 작용으로 인해 혼란스러워 지거나 튀어 오르거나 더 높게 전환 될 수 있습니다.
문제는 데이터가 오염되고 덜 정확해집니다. 이상적으로는 어떤 페이지가 표시되는지 무작위로 지정한 다음 테스트가 끝날 때까지 항상 동일한 버전을 표시하는 도구를 사용하는 것이 좋습니다.
#22. 테스트에서 IP를 제거하지 않음
샘플 오염에 대해 말하자면, 데이터를 오염시키는 또 다른 방법이 있습니다(어쨌든 분석에 좋은 방법입니다).
분석 및 테스트 도구에서 귀하와 직원의 IP 주소를 차단해야 합니다. 마지막으로 원하는 것은 귀하 또는 팀 구성원이 페이지에서 '체크인'하고 테스트에서 태그가 지정되는 것입니다.
#23. 대조군 변형을 세분화하지 않음(네트워크 효과)
드물지만 발생할 수 있는 또 다른 오염 옵션은 특히 청중을 위한 네트워크가 있는 경우에 발생합니다.
여기 예가 있습니다.
청중이 소통할 수 있는 플랫폼이 있다고 가정해 보겠습니다. 페이스북 페이지나 댓글 섹션일 수도 있지만 모든 사람이 액세스할 수 있습니다.
이 상황에서 사람들은 한 페이지를 보고 다른 사람들은 대안 페이지를 보게 될 수 있지만 모두 동일한 소셜 네트워크에 있습니다. 이는 서로의 선택 및 페이지 상호 작용에 영향을 줄 수 있으므로 실제로 데이터를 왜곡할 수 있습니다. Linkedin은 네트워크 효과 문제를 방지하기 위해 새로운 기능을 테스트할 때 청중을 세분화했습니다.
이상적으로는 테스트가 완료될 때까지 두 테스트 그룹 간의 통신을 분리하는 것이 좋습니다.
#24. 계절별 이벤트 또는 주요 사이트/플랫폼 이벤트 중 테스트 실행
계절별 이벤트를 테스트하는 경우가 아니면 휴일이나 특별 판매 또는 월드 이벤트 발생과 같은 기타 주요 이벤트 동안 테스트 캠페인을 실행하고 싶지 않을 것입니다.
때때로 당신은 그것을 도울 수 없습니다. 테스트를 실행하면 Google에서 새로운 핵심 업데이트를 구현하고 캠페인 중간에 트래픽 소스를 엉망으로 만듭니다 *기침*.
가장 좋은 방법은 모든 것이 종료된 후 다시 실행하는 것입니다.
#25. 문화적 차이 무시
페이지에 대한 목표가 있을 수 있지만 다른 언어와 다른 국가에서 여러 변형이 표시되는 글로벌 캠페인도 실행하고 있습니다.
테스트를 실행할 때 이것을 고려해야 합니다. 간단한 레이아웃 변경 또는 신뢰 신호 추가 등과 같은 일부 변경은 전역적으로 수행할 수 있습니다.
다른 경우에는 문화적 차이를 고려해야 합니다. 사람들이 레이아웃을 보는 방법, 페이지의 이미지 및 아바타를 보는 방법.
Netflix는 모든 프로그램의 썸네일로 이 작업을 수행하여 다양한 청중에게 어필할 수 있는 다양한 요소를 테스트합니다(대신 해당 국가에서 유명한 특정 배우가 등장함).
한 국가에서 클릭을 유도하는 것은 다른 국가에서 매우 다를 수 있습니다. 테스트하기 전까지는 알 수 없습니다!
#26. 동시에 여러 연결된 캠페인 실행
흥분하기 쉽고 한 번에 여러 테스트를 실행하고 싶습니다.
기억하십시오: 판매 프로세스의 유사한 지점에 대해 동시에 여러 테스트를 실행할 수 있지만 유입경로의 여러 연결된 지점에 대해 여러 테스트를 실행하지 마십시오.
여기 내가 의미하는 바입니다.
가지고 있는 모든 리드 생성 페이지에서 동시에 테스트를 아주 쉽게 실행할 수 있습니다.
그러나 리드 페이지, 판매 페이지 및 체크아웃 페이지를 한 번에 모두 테스트하는 것은 원하지 않을 것입니다. 이렇게 하면 테스트 프로세스에 다양한 요소가 도입되어 유용한 통찰력을 얻기 위해 엄청난 양의 트래픽과 전환이 필요할 수 있기 때문입니다.
뿐만 아니라 각 요소는 다음 페이지에 좋은 영향과 나쁜 영향을 모두 다르게 미칠 수 있습니다. 일주일에 수십만 명의 방문자가 없는 한 정확한 결과를 얻기가 어려울 것입니다.
따라서 인내심을 갖고 한 번에 한 단계 또는 프로세스에서 연결되지 않은 페이지만 테스트하십시오.
참고:
변환을 사용하면 한 실험의 사람들이 다른 실험을 보지 못하도록 제외할 수 있습니다. 따라서 이론적으로 전체 판매 주기를 테스트한 다음 다른 페이지의 제어만 볼 수 있습니다.
#27. 동일하지 않은 트래픽 가중치
A/B, A/B/n 또는 다변수 테스트를 실행 중인지 여부는 중요하지 않습니다. 정확한 측정을 위해서는 각 버전에 동일한 트래픽 볼륨을 할당해야 합니다.
처음부터 동일하게 설정하십시오. 대부분의 도구를 사용하면 이 작업을 수행할 수 있습니다.
테스트 중 저지를 수 있는 일반적인 A/B 테스트 실수
#28. 정확한 결과를 얻기에 충분히 오래 실행되지 않음
테스트하고 정확한 결과를 얻으려면 세 가지 중요한 요소를 고려해야 합니다.
- 통계 학적으로 유의,
- 판매 주기 및
- 표본의 크기.
그럼 분해해 보겠습니다.
대부분의 사람들은 테스트 도구가 한 결과가 다른 결과보다 우수하고 그 결과가 통계적으로 유의하다고 말하면 테스트를 종료합니다. 즉, 테스트가 계속해서 이와 같이 수행된다면 이것이 확실한 승자입니다.
문제는 트래픽 양이 적은 경우에도 '통계 시그니처'를 꽤 빠르게 칠 수 있다는 것입니다. 무작위로 모든 전환은 한 페이지에서 발생하고 다른 페이지에서는 발생하지 않습니다.
그래도 항상 이대로는 안 됩니다. 테스트가 시작되었고 월급날이었고 그날 많은 매출을 올렸을 수 있습니다.
이것이 우리가 판매 주기를 고려해야 하는 이유입니다. 판매 및 트래픽은 요일 또는 월에 따라 변동될 수 있습니다. 테스트 실행 방식을 보다 정확하게 나타내려면 이상적으로는 2주에서 4주 사이에 실행해야 합니다.
마지막으로 샘플 크기가 있습니다.
한 달 동안 테스트를 실행하는 경우 정확한 결과를 얻기에 충분한 트래픽을 얻을 수 있습니다. 너무 적으면 테스트가 제대로 수행될 것이라는 신뢰 수준을 제공할 수 없습니다.
그래서 원칙적으로,
- 95% 신뢰 등급으로 이동합니다.
- 한 달 동안 실행하십시오.
- 필요한 샘플 크기를 미리 파악하고 적중할 때까지 테스트를 중단하지 마십시오. 그렇지 않으면 의심의 여지 없이 승자가 있음을 증명하는 놀라운 결과를 얻을 수 있습니다.
#29. 헬리콥터 모니터링/피킹
엿보기는 테스터가 테스트가 어떻게 수행되는지 보기 위해 테스트를 볼 때를 설명하는 데 사용되는 용어입니다.
이상적으로는 한 번 실행된 테스트를 보고 싶지 않으며 전체 주기가 완료되고 적절한 샘플 크기와 히트 통계적 유의성이 있을 때까지 테스트에 대한 결정을 내리지 않습니다.
그러나… 테스트가 실행되지 않으면 어떻게 됩니까?
고장난 것이 있다면?
글쎄, 그 경우에, 당신은 그것이 고장난 것을 보기 위해 한 달을 기다리고 싶지는 않겠죠? 이것이 내가 테스트를 실행하도록 설정한 후 24시간이 지난 후 테스트가 대조 및 변형에서 결과를 얻고 있는지 항상 확인하는 이유입니다.
트래픽을 수신하고 클릭/전환이 발생하고 있음을 알 수 있으면 작업을 중단하고 그대로 두었습니다. 나는 시험이 끝날 때까지 어떤 결정도 내리지 않는다.
#30. 사용자 피드백을 추적하지 않음(테스트가 직접적이고 즉각적인 조치에 영향을 미치는 경우 특히 중요)
테스트에서 클릭이 발생하고 트래픽이 분산되어 작동하는 것처럼 보이지만 갑자기 사람들이 판매 양식을 작성할 수 없다는 보고서를 받기 시작한다고 가정해 보겠습니다. (또는 더 나은 방법은 가드레일 지표가 허용 가능한 수준 아래로 떨어졌다는 자동 경고를 받는 것입니다.)
글쎄, 당신의 첫 번째 생각은 뭔가 고장난 것이어야합니다.
항상 그런 것은 아니다. 귀하의 제안에 공감하지 않는 청중으로부터 클릭이 발생할 수 있지만 만일을 대비하여 해당 양식을 확인하는 것이 좋습니다.
깨진 경우 수정하고 다시 시작하십시오.
#31. 테스트 중간에 변경하기
마지막 몇 가지 점에서 명확했을 수 있지만 일단 테스트가 시작되면 테스트를 변경하고 싶지 않습니다.
물론, 무언가가 망가질 수도 있지만, 그것이 우리가 해야 할 유일한 변화입니다. 우리는 디자인을 변경하거나 복사하거나 아무것도 변경하지 않습니다.
테스트가 작동하면 테스트를 실행하고 데이터가 작동하는 것을 결정하도록 합니다.
#32. 테스트 중간에 트래픽 할당 % 변경 또는 저성과자를 제거
테스트 중인 페이지를 변경하지 않는 것처럼 테스트 중간에 변형을 제거하거나 트래픽 분포를 변경하지 않습니다.
왜요?
대조군과 3가지 변형을 사용하여 A/B/n 테스트를 실행한다고 가정해 보겠습니다. 테스트를 시작하고 일주일 후에 장난스럽게 몰래 엿보다가 2개의 버전은 훌륭하게 수행되고 있고 하나는 잘 수행되지 않는 것을 알 수 있습니다.
이제 '잃어버린' 변형을 끄고 다른 변형 간에 트래픽을 재분배하고 싶습니까? 젠장... 트래픽의 추가 25%를 가져와서 최고의 성능을 가진 사람에게 보내고 싶지만 그렇게 하지 마십시오.
왜요?
이러한 재배포는 테스트 성능에 영향을 미칠 뿐만 아니라 결과와 보고 도구에 표시되는 방식에도 직접적인 영향을 미칠 수 있습니다.
이전에 제거된 변형에 버켓팅되었던 모든 사용자는 변형에 다시 할당되어야 하며 짧은 시간 내에 변경된 웹페이지를 보게 되며, 이는 행동 및 후속 선택에 영향을 미칠 수 있습니다.
그렇기 때문에 도중에 트래픽을 변경하거나 변형을 끄지 마십시오. (또한 왜 엿보기를 하면 안되는지!)
#33. 정확한 결과가 나왔을 때 테스트를 중단하지 않음
때때로 당신은 테스트를 중지하는 것을 잊었습니다!
계속 실행되어 청중의 50%는 약한 페이지에, 50%는 승자에게 제공됩니다. 앗!
다행히 Convert Experiences와 같은 도구는 캠페인을 중지하고 특정 기준(예: 샘플 크기, 통계, 전환 및 기간)에 도달하면 자동으로 우승자를 표시하도록 설정할 수 있습니다.
#34. 변화를 잃는 데 감정적으로 투자하기
테스터로서 우리는 공정해야 합니다. 그러나 때로는 특정 디자인이나 아이디어가 마음에 들고 이겨야 한다고 확신할 수 있으므로 테스트를 계속해서 더 오래 연장하여 테스트가 앞으로 나아가는지 확인합니다.
반창고를 떼어냅니다.
개선이 필요한 좋은 아이디어가 있을 수 있지만 현재 테스트를 종료할 때까지 그렇게 할 수 없습니다.
#35. 테스트를 너무 오래 실행하고 추적이 떨어짐
여기에 또 다른 잠재적인 샘플 오염 문제가 있습니다.
4주 이상 테스트를 실행하면 사용자의 쿠키가 떨어지는 것을 볼 수 있습니다. 이로 인해 이벤트 추적이 부족할 수 있지만 샘플 데이터를 반환하고 다시 오염시킬 수도 있습니다.
#36. 테스트를 중지/구현할 수 있는 도구를 사용하지 않습니다!
또 다른 드문 문제입니다.
일부 테스트 프로그램은 하드 코딩된 테스트 생성을 주장합니다. 즉, 개발자와 엔지니어가 캠페인을 처음부터 구축합니다.
그러나 테스트가 끝나고 동일한 개발자가 테스트를 끄고 우승한 변형을 설치할 때까지 기다려야 하는 경우에는 좋지 않습니다. 이는 답답할 뿐만 아니라 실행할 수 있는 테스트 수와 페이지가 실행되기를 기다리는 동안 페이지의 ROI를 심각하게 저하시킬 수 있습니다.
테스트가 완료된 후 저지를 수 있는 일반적인 A/B 테스트 실수
#37. 한번의 테스트 후 포기!
10번의 테스트 중 9번은 일반적으로 실패입니다.
즉, 우승자를 얻으려면 10번의 테스트를 실행해야 합니다. 노력이 필요하지만 항상 그만한 가치가 있으므로 한 캠페인 후에 멈추지 마십시오!
#38. 모든 버전을 테스트하기 전에 좋은 가설 포기
실패는 단순히 가설이 정확하지만 더 잘 실행되어야 함을 의미할 수 있습니다.
새로운 방식, 새로운 디자인, 새로운 레이아웃, 새로운 이미지, 새로운 아바타, 새로운 언어를 시도해보세요. 아이디어가 있고 더 잘 실행할 수 있는지 확인하십시오.
클라이언트 페이지를 개선하는 데 CXL 21 반복이 필요했지만 전환율이 12.1%에서 79.3%로 바뀌었습니다.
#39. 항상 큰 승리를 기대합니다
문제는 10개 이상의 승리 캠페인 중 1개만 큰 승리를 거둘 수 있다는 것입니다.
괜찮습니다. 시간이 지남에 따라 화합물이 1% 증가하더라도 계속 테스트하고 개선합니다. 이를 개선하고 2%로 늘리면 이제 효율성이 두 배가 됩니다.
어떤 유형의 테스트가 최상의 결과를 제공합니까?
사실, 다양한 실험에는 다양한 효과가 있습니다. 300개 이상의 테스트에서 Jakub Linowski의 연구에 따르면 레이아웃 실험이 더 나은 결과로 이어지는 경향이 있습니다.
최적화하기 가장 어려운 화면 유형은 무엇입니까? 동일한 연구에 따르면 결제 화면이 나타납니다(25개 테스트에서 중간값 효과 +0.4%).
#40. 시험 후 유효성을 확인하지 않음
그래서 테스트가 끝났습니다. 당신은 충분히 오래 달렸고, 결과를 보았고, 통계를 얻었지만 데이터의 정확성을 믿을 수 있습니까?
테스트 도중에 무언가가 깨졌을 수 있습니다. 확인하는 것은 결코 나쁘지 않습니다.
#41. 결과를 올바르게 읽지 않음
당신의 결과는 정말로 당신에게 무엇을 말해주고 있습니까? 올바르게 읽지 못하면 잠재적인 승자가 되기 쉽고 완전한 실패처럼 보일 수 있습니다.
- 분석에 대해 자세히 알아보십시오.
- 당신이 가지고 있는 모든 질적 데이터를 보십시오.
무엇이 효과가 있었고 무엇이 효과가 없었습니까? 왜 그런 일이 일어났습니까?
결과를 더 많이 이해할수록 더 좋습니다.
#42. 세그먼트별로 결과를 보지 않음
항상 조금 더 깊이 잠수하는 것이 좋습니다.
예를 들어 새로운 변형은 전환율이 낮은 것처럼 보일 수 있지만 모바일에서는 전환율이 40% 증가합니다!
결과로 분류해야만 그것을 알 수 있습니다. 사용된 장치와 결과를 보십시오. 귀중한 통찰력을 찾을 수 있습니다!
세그먼트 크기의 중요성을 인식하십시오. 각 세그먼트에 대한 트래픽이 충분하지 않아 완전히 신뢰할 수 없었을 수도 있지만 항상 모바일 전용 테스트(또는 어떤 채널이든)를 실행하고 성능을 확인할 수 있습니다.
#43. 결과에서 배우지 않음
테스트에서 패배하면 더 개선해야 할 부분이나 더 많은 연구를 수행해야 하는 부분에 대한 통찰력을 얻을 수 있습니다. CRO로서 가장 짜증나는 일은 방금 본 것에서 배우기를 거부하는 고객을 보는 것입니다. 그들은 데이터를 가지고 있지만 그것을 사용하지 않습니다 ...
#44. 패자를 데려가
또는 더 나쁘게는 손실 변동을 취합니다.
아마도 그들은 디자인을 선호하고 전환율은 1%에 불과하지만 시간이 지남에 따라 이러한 효과는 복합적입니다. 그 작은 승리를 가져가세요!
#45. 결과에 대한 조치를 취하지 않음
다시 더 나빠?
승리를 얻었지만 실행하지 않는 것! 그들은 데이터를 가지고 있고 그것으로 아무것도 하지 않습니다. 변화도 없고 통찰력도 없고 새로운 테스트도 없습니다.
#46. 승리에 대해 반복하지 않고 개선하지 않음
때때로 당신은 리프트를 얻을 수 있지만 더 있어야합니다. 앞서 말했듯이 모든 승리가 두 자릿수 상승을 가져오는 경우는 매우 드뭅니다.
그러나 그렇다고 해서 새로운 반복과 개선을 실행하고 한 번에 1%씩 증가하여 거기에 도달할 수 없다는 의미는 아닙니다.
모든 것이 추가되므로 계속 개선하십시오!
#47. 다른 분야나 부서에서 수상한 결과를 공유하지 않음
우리가 매우 성공적/성숙한 CRO 팀에서 볼 수 있는 가장 큰 것 중 하나는 회사의 다른 부서와 상금 및 결과를 공유한다는 것입니다.
이를 통해 다른 부서에서도 개선할 수 있는 방법에 대한 통찰력을 얻을 수 있습니다.
- 성공적인 판매 페이지 사본을 찾으십니까? 페이지에 도달하게 하는 광고에 미리 프레임을 지정하십시오!
- 잘 작동하는 리드 자석 스타일을 찾으십니까? 전체 사이트에서 테스트하십시오.
#48. 다른 부서에서 이러한 변경 사항을 테스트하지 않음
그리고 이것이 핵심입니다. 다른 부서와 통찰력을 공유하더라도 어떻게 작동하는지 테스트해야 합니다.
한 영역에 효과를 주는 스타일 디자인은 다른 영역에 효과를 줄 수 있으므로 항상 테스트하십시오!
#49. 한 페이지에 너무 많은 반복
우리는 이것을 '로컬 최대치'라고 부릅니다.
테스트를 실행 중인 페이지가 정체 상태에 있으며 더 이상 개선되지 않는 것 같습니다.
급진적인 재설계를 시도할 수는 있지만 다음은 무엇입니까?
판매 프로세스의 다른 페이지로 이동하여 개선하기만 하면 됩니다. (아이러니하게도 이것은 실제로 어쨌든 더 높은 ROI를 제공하는 것으로 입증될 수 있습니다.)
판매 페이지의 전환율을 10%에서 11%로 설정하는 것은 트래픽을 유도하는 페이지를 2%에서 5%로 가져오는 것보다 덜 중요할 수 있습니다.
의심스러운 경우 목록에서 다음으로 가장 중요한 테스트를 찾아 개선을 시작하십시오. 더 나은 잠재 고객을 제공함으로써 어쨌든 붙어있는 페이지에서 전환에 도움이된다는 것을 알게 될 수도 있습니다.
#50. 테스트가 충분하지 않습니다!
테스트에는 시간이 걸리며 한 번에 실행할 수 있는 테스트가 너무 많습니다.
그래서 우리가 뭘 할 수 있지?
테스트 사이의 가동 중지 시간을 줄이기만 하면 됩니다!
테스트를 완료하고 결과를 분석하고 다른 테스트를 반복하거나 실행합니다. (이상적으로는 대기열에 넣고 갈 준비를 하도록 합니다).
이렇게 하면 시간 투자에 대해 훨씬 더 높은 수익을 얻을 수 있습니다.
#51. 테스트를 문서화하지 않음
성숙한 CRO 팀이 가지고 있는 또 다른 습관은 페이지, 가설, 효과가 있는 항목, 효과가 없는 항목, 상승도 등에 대한 데이터를 포함하는 테스트의 내부 데이터베이스를 만드는 것입니다.
그러면 이전 테스트에서 배울 수 있을 뿐만 아니라 실수로 테스트를 다시 실행하는 것을 막을 수도 있습니다.
#52. 오탐(false positive)을 잊어버리고 거대한 상승 캠페인을 다시 확인하지 않음
때로는 결과가 너무 좋아서 사실이 아닙니다. 설정이 잘못되었거나 기록이 잘못되었거나 20개 테스트 중 1개가 위양성을 나타내는 것입니다.
그래서 당신은 무엇을 할 수 있습니까?
테스트를 다시 실행하고 높은 신뢰 수준을 설정하고 충분히 오래 실행했는지 확인하십시오.
#53. 다운라인 결과를 추적하지 않음
테스트 결과를 추적할 때 최종 목표를 기억하고 승자를 결정하기 전에 다운라인 측정항목을 추적하는 것도 중요합니다.
새로운 변형은 기술적으로 더 적은 수의 클릭을 유도할 수 있지만 클릭을 하는 사람들로부터 더 많은 판매를 유도합니다.
이 경우 클릭하는 트래픽도 계속해서 전환된다는 가정 하에 이 페이지를 실행하는 것이 실제로 더 수익성이 높습니다.
#54. 치료 결과를 편향시킬 수 있는 우선성 및 참신성 효과를 설명하지 못함
변경 사항으로 신규 방문자뿐만 아니라 모든 트래픽을 타겟팅한다고 가정해 보겠습니다.
50%는 원본을, 50%는 새 버전을 볼 수 있도록 여전히 분류 중이지만 이전 방문자는 캠페인에 참여할 수 있습니다. 이는 이전에 귀하의 사이트를 본 사람, 귀하의 콘텐츠를 읽은 사람, 클릭 유도문안을 본 사람 등을 의미합니다.
또한 캠페인 기간 동안 특정 테스트 버전만 볼 수 있습니다.
새로운 변화를 일으키면 실제로 과거 청중에게 참신한 영향을 미칠 수 있습니다.
그들은 항상 같은 CTA를 보고 지금은 그냥 무시할 수도 있습니다. 그렇죠? 이 경우 새로운 CTA 버튼 또는 디자인은 실제로 과거 방문자의 상승도를 볼 수 있습니다. 이는 그들이 지금 더 원하기 때문이 아니라 새롭고 흥미롭기 때문입니다.
때로는 레이아웃이 변경되어 디자인을 탐색하고 있기 때문에 더 많은 클릭이 발생할 수 있습니다.
이 때문에 일반적으로 반응으로 초기 상승을 얻지만 시간이 지남에 따라 다시 감소합니다.
테스트를 실행할 때 핵심은 청중을 분류하고 새로운 방문자가 기존 방문자와 마찬가지로 응답하는지 확인하는 것입니다.
훨씬 낮으면 기존 사용자가 클릭하는 참신한 효과가 될 수 있습니다. 비슷한 수준이라면 새로운 승자가 있을 수 있습니다.
어느 쪽이든 전체 주기 동안 실행하고 균형을 유지하십시오.
#55. 실행 고려 기간 변경
테스트할 때 고려해야 할 또 다른 사항은 청중의 고려 기간을 변경할 수 있는 변형입니다.
내가 무슨 뜻이야?
일반적으로 즉각적인 판매가 이루어지지 않는다고 가정해 보겠습니다. 리드는 30일 이상의 판매 주기에 있을 수 있습니다.
고려하고 구매하는 시간에 직접적인 영향을 미치는 클릭 유도문안을 테스트하는 경우 결과가 왜곡될 수 있습니다. 한 가지 예로, 컨트롤은 판매를 얻을 수 있지만 테스트 기간을 벗어나서 놓칠 수 있습니다.
또 다른 시나리오는 거래를 제안하는 CTA가 있고 지금 조치를 취하도록 만드는 다른 모든 것의 가격대가 있는 경우 거의 항상 결과를 왜곡하여 이 버전이 훨씬 더 잘 전환되는 것처럼 보이게 만드는 것입니다.
이것을 염두에 두고 테스트 중과 후에 분석을 통해 확인하십시오.
#56. X 시간 후에 다시 테스트하지 않음
이것은 특정 페이지나 테스트 실수에 관한 것이 아니라 테스트 철학에 대한 것입니다.
예, 멋진 페이지가 있을 수 있으며 예, 현재 위치에 도달하기 위해 20번의 반복 작업을 수행했을 수 있습니다.
문제는 몇 년 안에 전체 페이지를 다시 점검해야 할 수도 있다는 것입니다. 환경 변화, 사용 언어 및 용어, 제품을 조정할 수 있습니다.
항상 이전 캠페인으로 돌아가 다시 테스트할 준비를 하십시오. (테스트 리포지토리를 갖는 것이 좋은 또 다른 이유입니다.)
#57. 제품이 아닌 경로만 테스트
거의 모든 사람들이 판매 경로에 집중하고 이를 테스트합니다. 그러나 현실은 제품이 A/B 테스트 및 개선될 수도 있고 더 높은 리프트를 제공할 수도 있다는 것입니다.
아이폰을 생각해보세요.
Apple은 웹사이트를 테스트하고 개선했지만, 더 많은 상승을 이끌어내는 것은 제품 반복 및 개선입니다.
이제 실제 제품이 없을 수도 있습니다. 프로그램이나 디지털 제안이 있을 수 있지만 청중의 요구 사항에 대해 더 많이 배우고 이를 테스트한 다음 이를 판매 페이지로 다시 가져오는 것은 리프트 측면에서 매우 클 수 있습니다.
결론
그래서 당신은 그것을 가지고 있습니다. 우리가 흔히 볼 수 있는 57가지 일반적이고 흔하지 않은 A/B 테스트 실수와 이를 방지할 수 있는 방법.
이 가이드를 사용하여 향후 모든 캠페인에서 이러한 문제를 피할 수 있습니다.