베이지안 통계: A/B 테스터의 빠르고 과대 광고 없는 입문서

게시 됨: 2022-06-23
베이지안 통계 A:B 테스터의 빠르고 과대 광고 없는 입문서

A/B 테스트 도구에서 제공한 결과를 해석하는 능력에 대해 얼마나 자신이 있습니까?

베이지안 통계를 기반으로 하는 도구를 사용 중이고 "B"가 "A"를 이길 확률이 70%이므로 "B"가 승자라고 말합니다. 이것이 의미하는 바와 CRO 전략에 어떤 정보를 제공해야 하는지 알고 있습니까?

이 기사에서는 다음을 포함하여 A/B 테스트를 다시 제어하는 ​​데 도움이 되는 베이지안 통계의 기본 사항을 배웁니다.

  • 베이지안 통계에 대한 편견 없는 관점
  • 빈도주의자 vs 베이지안 장점과 단점
  • 몇 가지 일반적인 신화 함정을 피하면서 베이지안 A/B 테스트 결과를 자신 있게 해석하고 사용하는 데 필요한 준비.
숨다
  • 베이지안 통계란 무엇입니까?
    • 베이지안 기원 이야기
    • A/B 테스팅에 적용된 베이지안 통계의 예
    • A/B 테스터에게 중요한 베이지안 용어에 대한 짧은 용어집
      • 베이지안 추론
      • 조건부 확률
      • 확률 분포/우도 분포
      • 사전 신념 분포
      • 접합
      • 켤레 사전
      • 손실 함수
    • 빈도주의 통계란 무엇입니까?
    • 베이지안 대 빈도주의 A/B 테스트
      • 빈번한 프레임워크
      • 베이지안 프레임워크
  • 베이지안 통계는 A/B 테스트에서 실제로 무엇을 알려줍니까?
    • 최고가 될 확률(P2BB)
    • 예상 상승
    • 예상 손실
  • 피해야 할 베이지안 통계에 대한 오해
    • 신화 #1: 베이지안은 가정을 진술하지만 빈도주의자는 그렇지 않습니다
    • 신화 #2. 베이지안 방법은 실제로 원하는 답변을 제공합니다.
    • 통념 #3: 베이지안 추론은 빈도주의적 추론보다 불확실성을 더 잘 전달하는 데 도움이 됩니다.
    • 신화 #4. 베이지안 A/B 테스트 결과는 엿보기에 면역입니다.
    • 신화 #5. 빈도주의적 통계는 고정된 표본 크기를 기다려야 하므로 비효율적입니다.
  • 따라서 베이지안 또는 빈도주의를 선택해야 합니까? 둘 다에 대한 장소가 있습니다.
  • 주요 요점

준비가 된? 기본부터 시작하겠습니다.

베이지안 통계란 무엇입니까?

베이지안 통계는 베이지안 정리를 기반으로 하는 통계 분석에 대한 접근 방식으로, 해당 이벤트에 대한 새로운 데이터 또는 증거가 수집될 때 이벤트에 대한 신념을 업데이트합니다. 여기서 확률은 사건이 일어날 것이라는 믿음의 척도입니다.

이것이 의미하는 것: 이벤트에 대한 사전 믿음이 있고 그와 관련된 추가 정보를 얻으면 해당 믿음이 사후 믿음으로 변경(또는 최소한 조정)됩니다.

이는 불확실성을 이해하거나 전자 상거래 및 기계 학습을 위한 전환율 최적화와 같이 노이즈가 많은 데이터로 작업할 때 유용합니다.

이것을 그림으로 보자.

예를 들어, 당신이 대학 식료품 카트 경주를 보고 있는데 흥분한 관중이 당신에게 빨간 티셔츠를 입은 남자가 녹색 셔츠를 입은 여자를 싣고 가는 내기에 도전한다고 가정해 봅시다. 당신은 그것에 대해 생각하고 검은 재킷 남자와 검은 후드 여자가 대신 이길 것이라고 반박합니다.

Relay for Life 식료품 카트 경주
원천

머리 위로 또 다른 관중이 "빨간 티셔츠를 입은 녀석이 지난 4경기에서 3경기를 이겼습니다."라고 속삭였습니다. 내기는 어떻게 되나요? 더 이상 확신이 서지 않으시죠?

마지막으로 검은색 재킷 남자가 행운의 선글라스를 착용했을 때 그가 이겼다는 것도 배웠다고 가정해 보겠습니다. 그리고 그가 그것을 입지 않았을 때는 빨간 티셔츠를 입은 남자가 이겼습니다.

오늘, 당신은 검은색 재킷 남자가 그 안경을 쓰고 있는 것을 봅니다. 당신의 믿음은 다시 바뀝니다. 이제 내기에 더 많은 믿음이 생겼습니다. 맞습니까? 이 이야기에서 당신은 새로운 데이터의 증거를 얻을 때마다 당신의 믿음을 업데이트했습니다. 이것이 베이지안 접근 방식입니다.

베이지안 기원 이야기

Thomas Bayes 목사는 그의 이론에 대해 처음 생각했을 때 그것이 출판할 가치가 있다고 생각하지 않았습니다. 그래서 10년 넘게 그의 노트에 남아 있었다. 프라이스가 베이즈 정리의 기초를 형성하는 메모를 발견한 것은 그의 가족이 리처드 프라이스에게 자신의 메모를 살펴보라고 요청했을 때였습니다.

Bayes의 사고 실험에서 시작되었습니다. 그는 완벽하게 평평하고 네모난 테이블에 등을 대고 앉아 조수가 테이블 위에 공을 던지게 하는 것에 대해 생각했습니다.

공은 테이블의 어느 위치에든 떨어질 수 있지만 Bayes는 새로운 정보로 추측을 업데이트하여 어디를 추측할 수 있다고 생각했습니다. 공이 테이블에 떨어졌을 때, 그는 이전 공이 떨어진 곳의 앞이나 뒤에 공이 왼쪽 또는 오른쪽으로 떨어졌는지 여부를 조수에게 알려줄 것입니다.

그는 그것을 주목하고 더 많은 공이 테이블에 떨어지는 것을 들었습니다. 이와 같은 추가 정보를 통해 그는 던질 때마다 추측의 정확도를 향상시킬 수 있음을 발견했습니다. 이것은 우리가 관찰에서 더 많은 증거를 획득함에 따라 우리의 이해를 업데이트한다는 아이디어를 가져왔습니다.

베이즈 정리 베이지안 통계 입문서
원천

데이터 분석에 대한 베이지안 접근 방식은 과학 및 공학과 같은 다양한 분야에 적용되며 스포츠 및 법률에도 적용됩니다.

온라인 무작위 통제 실험, 특히 A/B 테스트에서 베이지안 접근 방식을 4단계로 사용할 수 있습니다.

  1. 이전 배포를 식별합니다.
  2. 당신의 신념을 반영하는 통계 모델을 선택하십시오.
  3. 실험을 실행합니다.
  4. 관찰 후 신념을 업데이트하고 사후 분포를 계산합니다.

베이지안 알고리즘이라는 일련의 규칙을 사용하여 신념을 업데이트합니다.

A/B 테스팅에 적용된 베이지안 통계의 예

베이지안 A/B 테스트 예제를 설명하겠습니다.

Shopify 스토어의 CTA 버튼에 대해 간단한 A/B 테스트를 실행했다고 상상해 보십시오. "A"의 경우 "장바구니에 추가"를 사용하고 "B"의 경우 "장바구니에 추가"를 사용합니다.

빈도주의자가 테스트에 접근하는 방법은 다음과 같습니다.

두 가지 대체 세계가 있습니다. 하나는 A와 B가 다르지 않으므로 테스트에서 전환율의 차이가 표시되지 않습니다. 그것이 귀무가설입니다. 그리고 다른 세계에서는 차이가 있으므로 한 버튼이 다른 버튼보다 더 잘 작동합니다.

빈도주의자는 우리가 CTA 버튼에 차이가 없는 세계 1에 살고 있다고 가정합니다. 즉, 귀무 가설이 참이라고 가정합니다. 그리고 나서 그들은 유의 수준이라고 하는 미리 결정된 확실성의 수준까지 그 잘못을 증명하려고 할 것입니다.

그러나 이것은 베이지안이 동일한 테스트에 접근하는 방법입니다.

그들은 버튼 A와 B가 0에서 100% 사이의 전환율을 생성할 동일한 기회를 갖는다는 사전 믿음에서 시작합니다. 따라서 게이트에서 바로 버튼 평등이 있습니다. 둘 다 최고 실적자가 될 확률이 50%입니다.

그런 다음 테스트가 시작되고 데이터가 수집됩니다. 베이지안 A/B 테스터는 새로운 정보를 관찰하여 지식을 업데이트합니다. 따라서 B가 약속을 보인다면 "B는 A를 이길 확률이 61%"라는 관찰을 바탕으로 사후 믿음에 도달할 수 있습니다.

두 방법 사이에는 핵심적인 차이점이 있습니다.

이것이 우리가 베이지안 A/B 테스트에 대해 편견 없는 접근 방식을 유지하는 것이 중요한 이유입니다.

대부분의 베이지안 A/B 테스트 도구(아마도 마케팅 목적으로)는 극단적인 반빈도주의적 입장을 취하고 베이지안이 더 "수익성 있는" 변종을 알려주는 데 더 낫다는 주장을 밀어붙입니다.

그러나 A/B 테스트에 대한 단일 통계적 접근 방식이 통찰력에 대한 독점적 권한을 소유합니까?

베이지안 주장을 더 밀어붙이면 응답자가 가장 좋은 조치가 무엇인지 알고 싶거나 이익을 극대화하거나 이와 유사한 것을 원한다고 말하는 연구에 직면할 수 있습니다. 이것은 질문을 결정 이론 영역에 확고하게 둡니다. 베이지안 추론이나 빈도주의 추론 모두 직접적으로 말할 수 없는 것입니다.

Analytics-toolkit.com의 창시자이자 "온라인 A/B 테스팅의 통계적 방법"의 저자인 Georgi Georgiev

앞으로 섹션에서 이러한 세부 사항에 대해 간략히 살펴보겠습니다. 지금은 이 입문서의 나머지 부분을 이해하기 쉽게 만들어 보겠습니다.

A/B 테스터에게 중요한 베이지안 용어에 대한 짧은 용어집

베이지안 추론

베이지안 추론은 새로운 데이터로 가설의 확률을 업데이트하는 것입니다. 그것은 믿음과 확률을 기반으로 합니다.

베이지안 추론은 조건부 확률을 활용하여 데이터가 우리의 믿음에 미치는 영향을 이해하는 데 도움이 됩니다. 하늘이 빨간색이라는 사전 믿음으로 시작한다고 가정해 보겠습니다. 몇 가지 데이터를 살펴본 후, 우리는 이러한 사전 믿음이 틀렸다는 것을 곧 깨닫게 될 것입니다. 그래서 우리는 하늘색에 대한 잘못된 모델을 개선하기 위해 베이지안 업데이트를 수행하여 더 정확한 사후 믿음으로 끝납니다 .

데이터 과학을 향하여 Michael Berk

조건부 확률

조건부 확률은 다른 이벤트가 발생했을 때 이벤트의 확률입니다. 즉, 조건 B에서 A가 발생할 확률입니다.

조건부 확률 베이지안 통계

번역: 다른 사건 B가 주어졌을 때 사건 A가 일어날 확률은 B와 A가 함께 일어날 확률을 사건 B의 확률로 나눈 것과 같습니다.

확률 분포/우도 분포

가능성 분포는 데이터가 특정 값을 가정할 가능성을 보여주는 분포입니다.

데이터가 여러 값을 가정할 수 있는 경우(예: 회색, 빨간색, 주황색, 파란색 등이 될 수 있는 색상과 같은 범주) 분포는 다항식입니다. 숫자 집합의 경우 분포가 정상일 수 있습니다. 예/아니요 또는 참/거짓일 수 있는 데이터 값의 경우 이항이 됩니다.

사전 믿음 분포

또는 단순히 사전이라고 하는 사전 확률 분포는 새로운 데이터의 증거를 얻기 전의 믿음을 나타냅니다. 따라서 이것은 베이지안 분석(또는 추론)을 사용하여 몇 가지 증거를 고려한 후 업데이트할 초기 믿음의 표현입니다.

접합

우선, 켤레는 일반적으로 쌍으로 함께 결합되는 것을 나타냅니다. 베이지안 확률 이론에서 켤레는 사전이 가능성에 켤레라고 가정합니다.

사후가 사전과 동일한 기능적 형태를 갖는다면 사전은 우도 함수에 켤레입니다. 이것은 우도 함수가 사전 분포를 업데이트하는 방법을 보여줍니다.

켤레 베이지안 통계
원천

켤레 사전

이것은 위의 정의와 연결됩니다. 사후 확률 분포가 사전 확률 분포와 동일한 확률 분포 계열(또는 동일한 기능 형식을 가짐)에 있는 경우 사전 및 사후 분포는 켤레 분포입니다. 이 경우, 사전은 우도 함수에 대한 켤레 사전이라고 합니다.

주관적(실험자의 지식 기반), 객관적이고 유익한(이력 데이터 기반) 또는 비정보적일 수 있습니다.

손실 함수

손실 함수는 현재 추정치가 얼마나 나쁜지를 측정하여 손실을 수량화하는 방법입니다. 이는 특히 가능한 값의 범위에 있는 추론을 표현할 때 가설 테스트의 손실을 최소화하고 테스트 결과로 의사 결정을 지원하는 데 도움이 됩니다.

이제 문제가 해결되었습니다. 계속 진행할 수 있습니다.

잠시 동안 블록 주위에 있었다면 아마도 몇 가지 빈도주의 대 베이지안 통계 밈 이상을 접했을 것입니다.

베이지안과 빈도주의 통계에 대한 밈
원천

양측은 서로 반대 방향에서 답을 찾는 것 같지만 과연 그럴까? 이것을 더 잘 이해하기 위해(편향되지 않은 채로), 빈도주의자 캠프를 방문합시다.

빈도주의 통계란 무엇입니까?

이것은 대부분의 사람들이 통계에서 배우는 첫 번째 추론 기법입니다. 빈도주의 통계는 동일한 조건에서 사건(가설)이 자주 발생할 확률을 계산합니다.

빈도주의적 접근을 사용한 A/B 가설 테스트는 다음 단계를 따릅니다.

  1. 몇 가지 가설을 선언합니다. 일반적으로 귀무 가설은 새로운 변이 "B"가 원래 "A"보다 좋지 않다는 것이고 대립 가설은 반대입니다.
  2. 순차적 테스트 접근 방식을 사용하지 않는 한 통계적 검정력 계산을 사용하여 사전에 표본 크기를 결정합니다 . 통계적 검정력, 현재 전환율 및 감지 가능한 최소 효과를 고려한 표본 크기 계산기를 사용합니다.
  3. 테스트를 실행하고 각 변형이 미리 결정된 샘플 크기에 노출될 때까지 기다립니다.
  4. 최소한 귀무 가설(p-값)에서 데이터만큼 극단적인 결과를 관찰할 확률을 계산합니다 . p-값이 5% 미만이면 귀무 가설을 기각하고 새 변형을 프로덕션에 배포합니다.

이것은 베이지안과 어떻게 비교됩니까? 보자…

베이지안 대 빈도주의 A/B 테스트

이것은 통계적 추론이 사용되는 모든 곳에서 악명 높은 논쟁입니다. 그리고 솔직히 말해서 무의미합니다. 둘 다 장점과 사용하기에 가장 좋은 경우가 있습니다.

두 진영의 대부분의 발기인이 생각하는 것과는 달리 여러 면에서 비슷하며 접근 방식은 다르지만 어느 쪽도 진실에 더 가깝지 않습니다.

예를 들어, A/B 테스트에 적용할 때 특정 방법은 비즈니스 성장을 야기할 행동 과정의 관점에서 절대적이고 정확한 예측을 제공하지 않습니다. 대신 A/B 테스팅은 의사 결정에서 위험을 제거하는 데 도움이 됩니다.

베이지안 또는 빈도주의 접근 방식을 사용하여 데이터를 분석하는 방법에 관계없이 어느 정도는 자신이 옳다는 확신을 갖고 이동할 수 있습니다.

이러한 이유로 두 통계 모델 모두 유효합니다. 베이지안은 속도 이점이 있을 수 있지만 프리퀀시스트보다 계산이 더 까다롭습니다.

다른 차이점을 확인하십시오…

빈번한 프레임워크

우리 대부분은 통계 입문 과정의 빈도주의적 접근 방식에 익숙합니다. 귀무가설 선언, 표본 크기 결정, 무작위 실험을 통한 데이터 수집, 마지막으로 통계적으로 유의미한 결과 관찰 등의 방법론을 정의했습니다.

빈도주의에서 우리는 확률을 근본적으로 반복되는 사건의 빈도와 관련된 것으로 봅니다. 따라서 공정한 동전 던지기에서, 빈도주의자는 충분히 자주 추측하면 앞면이 나올 확률이 50%이고 뒷면도 마찬가지라고 믿습니다.

빈도주의적 사고방식: "같은 조건에서 실험을 계속 반복한다면 내 방법이 정답을 얻을 확률은 얼마나 될까요?"

베이지안 프레임워크

빈도주의적 접근 방식은 각 변이에 대한 모집단 매개변수를 (알 수 없는) 상수로 취급하지만 베이지안 접근 방식은 각 매개변수 값을 확률 분포가 있는 확률 변수로 모델링합니다.

여기에서 관심 매개변수에 대한 확률 분포(및 이에 따른 예상 값)를 직접 계산합니다.

그리고 각 변이에 대한 확률 분포를 모델링하기 위해 Bayes' 규칙에 의존하여 실험 결과를 관심 메트릭에 대한 사전 지식과 결합합니다. 켤레 사전을 사용하여 계산을 단순화할 수 있습니다.

Alex Birkett은 베이지안 알고리즘을 다음과 같이 요약했습니다.

  • 모수에 대한 주관적인 믿음을 통합하는 사전 분포를 정의합니다. 사전은 정보가 없거나 유익할 수 있습니다.
  • 데이터를 수집합니다.
  • 베이즈 정리를 사용하여 데이터로 사전 분포를 업데이트합니다(베이즈 규칙을 명시적으로 사용하지 않고 베이지안 방법을 사용할 수 있음—비모수 베이지안 참조). 사후 분포는 데이터를 본 후 매개변수에 대한 업데이트된 믿음을 나타내는 확률 분포입니다.
  • 사후 분포를 분석하고 요약합니다(mean, median, sd, quantiles…).

요컨대, 베이지안 실험자는 자신의 관점과 확률이 그들에게 무엇을 의미하는지에 중점을 둡니다. 그들의 의견은 관찰된 데이터와 함께 발전합니다. 반면에 빈도주의자들은 정답이 어딘가에 있다고 믿습니다.

빈도주의자 대 베이지안 논쟁은 사후 A/B 테스팅 분석에 그다지 영향을 미치지 않는다는 것을 이해하십시오. 두 캠프의 주요 차이점은 테스트할 수 있는 항목과 더 관련이 있습니다.

확률 통계는 일반적으로 후속 분석에서 크게 사용되지 않습니다. Bayesian-Frequentist 논증은 A/B 패러다임에서 테스트할 변수의 선택과 관련하여 더 적합하지만 대부분의 A/B 테스터는 연구 가설, 확률 및 신뢰 구간을 완전히 위반합니다 .

Dr. Rob Balon에서 CXL로

Georgi는 더 자세히 설명합니다.

여러 온라인 베이지안 계산기와 베이지안 통계 엔진을 적용하는 하나 이상의 주요 A/B 테스트 소프트웨어 공급업체가 있습니다. 이 소프트웨어 공급업체는 모두 소위 비정보적 사전(약간의 잘못된 명칭이지만 이에 대해 파고들지 말자)을 사용합니다. 대부분의 경우 이러한 도구의 결과는 동일한 데이터에 대한 빈도주의적 테스트의 결과와 수치적으로 일치합니다. 베이지안 도구가 'B가 A보다 나을 96% 확률'과 같은 것을 보고하는 반면 빈도주의 도구는 96% 신뢰 수준에 해당하는 0.04의 p-값을 생성한다고 가정해 보겠습니다.

일부 사람들이 인정하고 싶은 것보다 훨씬 더 일반적인 위와 같은 상황에서 두 가지 방법은 해석이 다르더라도 동일한 추론으로 이어질 것이며 불확실성 수준은 동일할 것입니다.

베이지안은 이 결과에 대해 어떻게 말할까요? 사전 정보가 없는 시나리오를 볼 때 p-값을 적절한 사후 확률로 변환합니까? 아니면 베이지안 테스트의 이러한 모든 적용이 정보가 없는 사전 사용 자체에 대해 잘못 안내되어 있습니까?

캠프를 선택하고 다른 캠프에 돌을 던지기 위해 엄폐물 뒤에 자리를 찾을 필요가 없습니다. 두 프레임워크가 동일한 결과를 생성한다는 증거도 있습니다. 어떤 길을 선택하든 목적지는 아마 같을 것입니다. 빈도주의 대 베이지안을 사용하여 거기에 도달하는 방법에 따라 다릅니다.

예를 들어:

  1. 베이지안 테스트가 더 빠르고 대화식 실험에 선호되는 선택임을 보여주는 데이터가 있습니다.

    베이지안 패러다임을 통해 실험자는 공식적으로 믿음을 정량화하고 추가 지식을 통합할 수 있으므로 기존 통계 분석보다 빠릅니다.

    베이지안 A/B 테스트 시뮬레이션에서 결정 기준이 조정되었을 때(즉, 실수에 대한 허용 오차 증가), 실험의 75%가 기존 접근 방식에서 요구하는 관찰의 22.7% 내에서(5% 유의 수준에서) 결론지었습니다. 그리고 제2종 오류는 10%에 불과했습니다.
  2. 베이지안은 또한 더 관대한 것으로 간주되는 반면 프리퀀티스트는 위험을 회피합니다.

    많은 빈도주의 테스트가 95%의 통계적 유의성을 사용하지만 베이지안은 그 미만으로 만족할 수 있습니다. 변형이 통제를 이길 확률이 78%인 경우 예상 손실에 따라 해당 변형을 배포하는 것이 현명한 결정이 될 수 있습니다.

    당신이 틀렸고 예상되는 손실이 1% 미만이라면 많은 기업에 아주 사소한 피해입니다. 이 조잡한 접근 방식은 위험이 매우 낮은 시나리오에서 신속한 의사 결정에 더 적합할 수 있습니다.
  3. 그러나 베이지안 시뮬레이션 및 계산은 계산량이 많습니다.

    반면에 프리퀀티스트는 펜과 종이를 기반으로 합니다. 주의 사항: A/B 테스트 도구가 베이지안을 사용하고 데이터에 어떤 가정이 추가되는지 모르는 경우 공급업체가 제공하는 "답변"에 의존할 수 없습니다. 소금 한 꼬집과 함께 섭취하세요. 그리고 자신의 분석을 실행하십시오.

베이지안의 모든 햇빛과 무지개는 아닙니다. Georgi가 이 질문 목록으로 지적한 것처럼:

  • "사전 확률과 우도 함수의 곱을 구하시겠습니까?"
  • "사전 확률과 데이터의 조합을 출력으로 원하십니까?"
  • "결과를 생성하기 위해 데이터와 혼합된 주관적 신념을 원하십니까?" (정보 사전을 사용하는 경우)
  • "실제 데이터와 매우 확실하다고 가정되는 사전 정보가 혼합되어 있는 통계를 제시하는 것이 편합니까?"

이것은 평신도의 관점에서 베이지안 통계의 모든 측면입니다.

베이지안 통계는 A/B 테스트에서 실제로 무엇을 알려줍니까?

A/B 테스트를 설계하여 전환율 또는 방문자당 수익과 같은 관심 측정항목에 변경사항이 미치는 영향에 대한 통찰력을 제공했습니다.

베이지안 통계와 함께 작동하는 도구를 사용할 때 "B가 승자"라는 것이 대부분의 사람들이 생각하는 것과 정확히 일치하지 않기 때문에 결과가 의미하는 바를 이해하는 것이 중요합니다.

베이지안 A/B 테스트 계산기
베이지안 A/B 테스트 계산기

결과를 표시하는 편리한 방법이지만 테스트에서 밝혀진 내용은 그렇지 않습니다. 대신 원하는 답변은 "A"와 "B"의 사후 비교에 있습니다.

다음은 3가지 비교 방법입니다.

최고가 될 확률(P2BB)

A/B 테스트 확률의 베이지안 통계가 최고의 P2BB가 될 확률

이것은 베이지안 A/B 테스트에서 승자를 선언할 확률입니다.

최고일 확률이 있는 변형은 계속해서 다른 것보다 실적이 높을 확률이 가장 높은 변형입니다.

이것은 원본 및 도전자의 관심 측정값의 사후 샘플 집합에서 계산됩니다.

따라서 예를 들어 B가 전환율을 높일 가능성이 가장 높은 경우 B가 승자로 선언됩니다.

예상 상승

A/B 테스트의 베이지안 통계 예상 상승

따라서 B가 승자라면 B로부터 얼마나 많은 향상을 기대해야 합니까? 테스트에서 본 것과 동일한 결과를 계속 제공할까요?

이것이 기대되는 향상이 제공하고자 하는 통찰력입니다. 일련의 사후 샘플이 주어졌을 때 A보다 B를 선택할 때 예상되는 상승은 백분율 증가의 신뢰할 수 있는 구간(또는 평균)으로 정의됩니다.

A/B 테스팅에서 우리는 일반적으로 이것을 통제에 대한 도전자로 비교합니다. 따라서 도전자가 졌다면 음수 값(예: -11.35%)과 양수 값(예: +9.58%)으로 표시됩니다.

예상 손실

A/B 테스트의 베이지안 통계 예상 손실

B가 A보다 낫다는 100% 확률은 없으므로 A보다 B를 선택하면 손실을 기록할 가능성이 있습니다. 이는 예상 손실로 표시되며 예상 상승과 마찬가지로 통제에 대한 도전자의 관점.

P2BB 변형(즉, 선언된 승자)을 선택할 위험을 알려줍니다.

신화에 대해 알아보기 전에 분석의 전설 Georgi Georgiev에게 깊은 감사를 드립니다. A/B 테스트에서 빈도주의 대 베이지안 추론, 베이지안 확률 및 통계에 대한 그의 심층 분석은 다음 섹션에 영감을 주었습니다.

피해야 할 베이지안 통계에 대한 오해

거의 불필요할 정도로 오래된 경쟁으로 베이지안 대 빈도주의 논쟁은 많은 의견을 모았고 많은 신화를 낳았습니다.

A/B 테스팅 도구 공급업체에서 이러한 미신(신화 #2) 중 가장 큰 것은 한 접근 방식이 다른 접근 방식보다 더 나은 이유를 알려줍니다.

그러나 위의 섹션을 읽고 나면 더 잘 알 수 있습니다.

이 신화의 구멍을 밝혀 봅시다.

신화 #1: 베이지안은 가정을 진술하지만 빈도주의자는 그렇지 않습니다

이것은 베이지안이 사전 분포 형태로 가정을 하고 평가를 위해 열려 있음을 시사합니다. 그러나 빈도주의자들은 수학의 중간에 숨겨진 가정을 합니다.

그것이 잘못된 이유: 베이지안과 빈도주의자는 유사한 기본 가정을 합니다. 유일한 차이점은 베이지안이 수학 외에 추가 가정을 한다는 것입니다.

빈도주의 모델은 분포의 모양, 관측치 전반에 걸친 효과의 동질성 또는 이질성, 관측치의 독립성과 같은 수학 가정을 사용합니다. 그리고 그들은 숨겨져 있지 않습니다. 실제로 통계 커뮤니티에서 광범위하게 논의되고 모든 빈도주의적 통계 테스트에 대해 언급됩니다.

진실: 빈도주의자들은 가정을 명시적으로 진술하고 가정을 테스트하기 위해 한 단계 더 나아가 정규성 테스트, 적합도 테스트(샘플 비율 불일치 테스트가 있음) 등을 테스트합니다.

신화 #2. 베이지안 방법은 실제로 원하는 답변을 제공합니다.

여기서 오해는 p-값과 신뢰 구간이 테스터에게 그들이 무엇을 알고 싶어하는지 알려주지 않는 반면 사후 확률과 신뢰할 수 있는 구간은 알 수 있다는 것입니다. 사람들은 다음과 같은 것을 알고 싶어합니다.

  • B가 A를 능가할 확률과
  • 결과가 우연이 아닐 가능성.

P-값 및 가설 검정(직접 추론)은 해당 정보를 제공하지 않지만 역추론은 제공합니다.

그것이 잘못된 이유: 이것은 언어학의 문제입니다. 일반적으로 비통계 전문가가 "가능성", "기회" 및 "확률"과 같은 용어를 사용할 때 기술적 의미를 염두에 두고 사용하지 않습니다. 더 깊이 조사하면 직선 추론만큼 역 추론에 대해서도 혼란스러워한다는 것을 알게 될 것입니다.

Georgi Georgiev에 따르면 다음과 같은 질문이 나타납니다.

  • 사전확률이란 ? 어떤 가치를 가져오는가?”
  • "우도 함수란 무엇입니까?"
  • "'사전' 확률은 무엇입니까? 사전 데이터가 없습니다."
  • "사전 확률의 선택을 어떻게 방어합니까?"
  • "이러한 혼합물 없이 데이터가 말하는 대로 전달할 수 있는 방법이 있습니까?"

진실: 기술 용어에 대한 잘못된 해석이 아니라 테스터가 알고 싶어하는 것에 대한 더 나은 통찰력이 있어야 합니다. P-값, 신뢰 구간 및 기타 정보는 수집된 데이터로 결과를 얼마나 잘 조사했는지 알려줍니다. 그들은 주관적이고 검증되지 않은 사전 가정의 영향 없이 확실성의 척도를 제공했습니다.

통념 #3: 베이지안 추론은 빈도주의적 추론보다 불확실성을 더 잘 전달하는 데 도움이 됩니다.

테스트 결과가 더 "의미 있는" 통찰력을 제공하기 때문입니다.

잘못된 이유: 빈도주의 와 베이지안 접근 방식은 모두 A/B 테스트의 확실성과 결과를 전달하는 데 도움이 되는 유사한 도구를 가지고 있습니다.

빈도주의자 베이지안
● 포인트 견적 ● 포인트 견적
● P-값 ● 신뢰할 수 있는 간격
● 신뢰 구간 ● 베이즈 요인
● P-값 곡선 ● 사후 분포
(같은 일을 하다
빈도주의 곡선)
● 신뢰 곡선
● 심각도 곡선 등

진실: 그것은 모두 당신이 그것들을 어떻게 사용하느냐에 달려 있습니다. 두 가지 방법 모두 불확실성을 전달하는 데 똑같이 효과적입니다. 그러나 불확실성의 척도를 표시하는 방법에는 차이가 있습니다.

신화 #4. 베이지안 A/B 테스트 결과는 엿보기에 면역입니다.

일부 베이지안 통계학자들은 “명확한 승자”가 보이면 베이지안 테스트를 중단할 수 있으며 이는 최종 결과에 거의 차이가 없다고 주장합니다.

이것은 빈도주의적 테스트에서 허용되지 않는다는 것을 알고 있을 것이므로 베이지안과 비교할 때 단점으로 간주됩니다. 하지만 정말입니까?

잘못된 이유: 1969년 Royal Statistical Society 저널에 "데이터 축적에 대한 반복된 유의성 테스트"라는 제목의 연구에서 Armitage et al. 결과 기반 선택적 중지가 오류 확률을 증가시키는 방법을 보여주었습니다.

베이지안 분석이 작동하는 방식을 조정하지 않고 승자를 발견하고 사후를 업데이트하고 다음 사전으로 사용할 수 없습니다.

진실: 엿보기는 빈도주의자만큼 베이지안 추론에 영향을 미칩니다(올바른 작업을 수행하려는 경우).

신화 #5. 빈도주의적 통계는 고정된 표본 크기를 기다려야 하므로 비효율적입니다.

CRO 커뮤니티의 일부 구성원은 빈도주의적 통계 테스트가 미리 결정된 고정된 샘플 크기로 실행되어야 하며 그렇지 않으면 결과가 유효하지 않다고 생각합니다.

결과적으로 원하는 결과를 얻기 위해 필요한 것보다 더 오래 기다립니다.

그것이 잘못된 이유: 빈도주의 통계는 약 70년 동안 그런 식으로 사용되지 않았습니다. 빈도주의적 순차 테스트를 사용하면 미리 결정된 고정된 기간이 필요하지 않습니다.

진실: 오늘날 더 많이 사용되는 순차 검정은 제1종 오류와 제2종 오류의 균형을 맞추기 위해 최대 표본 크기가 필요하지만 실제 사용되는 표본 크기는 관찰된 결과에 따라 사례마다 다릅니다.

따라서 베이지안 또는 빈도주의를 선택해야 합니까? 둘 다에 대한 장소가 있습니다.

편을 고를 필요가 없습니다. 두 가지 방법 모두 제 자리가 있습니다. 예를 들어, 업데이트된 사전을 사용하고 빠른 결과가 필요한 장기 프로젝트는 베이지안 접근 방식을 사용하는 것이 더 좋습니다.

반면에 빈도주의적 방법은 결과에서 상당한 양의 반복성을 요구하는 프로젝트에 가장 적합합니다. 많은 데이터 세트를 가진 많은 사람들이 사용할 소프트웨어를 작성하는 것과 같습니다.

Google의 의사결정 인텔리전스 책임자인 Cassie Kozyrkov는 "통계는 불확실성 하에서 마음을 바꾸는 과학"이라고 말했습니다.

그녀의 베이지안 대 빈도주의 통계 요약 비디오에서 그녀는 다음과 같이 말했습니다.

“빈번주의와 베이지안 논쟁을 받아들이고 마음이 바뀌는 것으로 모든 것을 축소할 수 있습니다. 빈도주의자들은 행동에 대한 마음을 바꾸고 선호하는 기본 행동을 가지고 있습니다. 아마도 신념이 없을 수도 있지만, 무지 아래서 좋아하는 행동이 있습니다. 그런 다음 "내 증거[또는 데이터]가 그 행동은?” “내 증거를 근거로 해서 내가 우스꽝스럽게 느껴지나요?”

반면에 베이지안은 다른 방식으로 마음을 바꿉니다. 사전이라고 하는 수학적으로 표현된 개인적인 의견인 의견으로 시작하여 "증거를 통합한 후 가져야 할 합리적인 의견은 무엇입니까?"라고 묻습니다. 따라서 빈도주의자는 행동에 대한 생각을 바꾸고 베이지안은 신념에 대한 생각을 바꿉니다.

그리고 의사 결정의 틀을 잡는 방법에 따라 한 캠프를 다른 캠프보다 선호할 수도 있습니다.”

결국, 우리는 모두 유사한 결론을 향해 가고 있습니다. 차이점은 이러한 결론이 귀하에게 제공되는 방식에 있습니다.

빈도주의와 베이지안 추론이 프로그래밍 함수이고 입력이 통계적 문제라면 이 둘은 사용자에게 반환하는 내용이 다를 것입니다. 빈도주의적 추론 함수는 추정치를 나타내는 숫자(일반적으로 표본 평균 등과 같은 요약 통계)를 반환하는 반면 베이지안 함수는 확률을 반환합니다.

책 "해커를 위한 확률적 프로그래밍 및 베이지안 방법"에서 발췌

어느 쪽이 다른 쪽보다 더 실용적인 결과를 제공한다는 주장은 옳지 않습니다.

주요 요점

A/B 테스트의 베이지안 통계는 다음 4단계로 구성됩니다.

  1. 이전 배포 식별
  2. 당신의 신념을 반영하는 통계 모델을 선택하십시오
  3. 실험 실행
  4. 결과를 사용하여 신념을 업데이트하고 사후 분포를 계산합니다.

당신의 결과는 통찰력 있는 확률로 당신을 가리킬 것입니다. 따라서 어떤 변형이 최고일 확률이 가장 높으며 예상 손실 및 예상 상승도를 알 수 있습니다.

이것은 일반적으로 베이지안 통계를 사용하는 대부분의 A/B 테스트 도구에 의해 해석됩니다. 그러나 철저한 실험자는 이러한 결과를 더 잘 이해하기 위해 사후 테스트 분석을 수행합니다.

여기까지 왔기 때문에 재미있는 사실이 하나 있습니다. 모두가 잘 알고 있는 Thomas Bayes의 초상화를 아십니까? 이 하나:

토마스 베이즈 초상화
토마스 베이즈 초상화(출처)

그 누구도 100% 확신할 수 없습니다.

CRO 마스터
CRO 마스터