สถิติแบบเบย์: ไพรเมอร์ที่รวดเร็วและปราศจากโฆษณาเกินจริงของผู้ทดสอบ A/B

เผยแพร่แล้ว: 2022-06-23
สถิติแบบเบย์ ไพรเมอร์แบบรวดเร็วและปราศจากโฆษณาของ A:B Tester

คุณมั่นใจในความสามารถในการตีความผลลัพธ์ที่ได้จากเครื่องมือทดสอบ A/B ของคุณมากน้อยเพียงใด

สมมติว่าคุณกำลังใช้เครื่องมือที่สร้างขึ้นจากสถิติแบบเบย์ และมันบอกคุณว่า “B” มีโอกาส 70% ที่จะเอาชนะ “A” ดังนั้น “B” จึงเป็นผู้ชนะ คุณรู้หรือไม่ว่ามันหมายถึงอะไรและควรแจ้งกลยุทธ์ CRO ของคุณอย่างไร?

ในบทความนี้ คุณจะได้เรียนรู้พื้นฐานของสถิติแบบเบย์ที่จะช่วยให้คุณกลับมาควบคุมการทดสอบ A/B ของคุณได้ ซึ่งรวมถึง

  • มุมมองที่ เป็นกลาง ของสถิติแบบเบย์
  • Frequentist vs Bayesian ข้อดีและข้อเสีย
  • การเตรียมการที่คุณต้องตีความและใช้ผลการทดสอบ A/B แบบเบย์อย่างมั่นใจ ในขณะที่หลีกเลี่ยงกับดักในตำนานทั่วไป
ซ่อน
  • สถิติแบบเบย์คืออะไร?
    • เรื่องราวต้นกำเนิดแบบเบย์
    • ตัวอย่างสถิติเบย์ที่ใช้กับการทดสอบ A/B
    • อภิธานศัพท์สั้นๆ ของคำศัพท์ Bayesian ที่มีความสำคัญต่อผู้ทดสอบ A/B
      • การอนุมานแบบเบย์
      • ความน่าจะเป็นแบบมีเงื่อนไข
      • การกระจายความน่าจะเป็น/การกระจายความน่าจะเป็น
      • การกระจายความเชื่อก่อนหน้า
      • คอนจูกาซี
      • Conjugate Priors
      • ฟังก์ชั่นการสูญเสีย
    • สถิติความถี่คืออะไร?
    • การทดสอบ A/B แบบ Bayesian กับ Frequentist
      • กรอบงานบ่อย
      • กรอบการทำงานแบบเบย์
  • สถิติแบบเบย์บอกอะไรคุณได้บ้างในการทดสอบ A/B?
    • ความน่าจะเป็นที่จะดีที่สุด (P2BB)
    • ความคาดหวังที่เพิ่มขึ้น
    • ขาดทุนที่คาดหวัง
  • ตำนานเกี่ยวกับสถิติแบบเบย์ที่ควรหลีกเลี่ยง
    • ตำนาน # 1: Bayesians ระบุสมมติฐานของพวกเขา Frequentists Don't
    • ตำนาน # 2 วิธีการแบบเบย์ให้คำตอบที่คุณต้องการจริงๆ
    • ตำนาน #3: การอนุมานแบบเบย์ช่วยให้คุณสื่อสารความไม่แน่นอนได้ดีกว่าการอนุมานบ่อยๆ
    • ตำนาน #4. ผลการทดสอบ A/B ของ Bayesian มีภูมิคุ้มกันต่อการแอบมอง
    • ตำนาน #5. สถิติที่ใช้บ่อยนั้นไม่มีประสิทธิภาพเนื่องจากคุณต้องรอขนาดตัวอย่างคงที่
  • ดังนั้นคุณควรเลือก Bayesian หรือ Frequentist หรือไม่? มีที่สำหรับทั้งคู่
  • ที่สำคัญ Takeaway

พร้อม? เริ่มจากพื้นฐานกันก่อน

สถิติแบบเบย์คืออะไร?

สถิติแบบเบย์เป็นวิธีการวิเคราะห์ทางสถิติที่อิงตามทฤษฎีบทของเบย์ ซึ่งอัปเดตความเชื่อเกี่ยวกับเหตุการณ์เมื่อมีการรวบรวมข้อมูลใหม่หรือหลักฐานเกี่ยวกับเหตุการณ์เหล่านั้น ในที่นี้ ความน่าจะเป็นเป็นหน่วยวัดความเชื่อที่ว่าเหตุการณ์หนึ่งเกิดขึ้น

สิ่งนี้หมายความว่า: หากคุณมีความเชื่อมา ก่อน เกี่ยวกับเหตุการณ์ และได้รับข้อมูลเพิ่มเติมเกี่ยวกับเหตุการณ์นั้น ความเชื่อนั้นจะเปลี่ยนแปลง (หรืออย่างน้อยก็ถูกปรับ) เป็นความเชื่อใน ภายหลัง

สิ่งนี้มีประโยชน์สำหรับการทำความเข้าใจความไม่แน่นอนหรือเมื่อทำงานกับข้อมูลที่มีเสียงรบกวนมากมาย เช่น ในการเพิ่มประสิทธิภาพอัตรา Conversion สำหรับอีคอมเมิร์ซและในการเรียนรู้ของเครื่อง

ลองนึกภาพสิ่งนี้:

ตัวอย่างเช่น สมมติว่าคุณกำลังดูการแข่งขันรถเข็นขายของในมหาวิทยาลัย จากนั้นผู้ชมที่ตื่นเต้นท้าให้คุณเดิมพันว่าผู้ชายที่ใส่เสื้อยืดสีแดงลากผู้หญิงที่ใส่เสื้อสีเขียวจะเป็นผู้ชนะ ลองคิดดูและโต้กลับว่าชายเสื้อดำและสาวเสื้อฮู้ดดำจะชนะแทน

การแข่งขันวิ่งรถเข็นเพื่อชีวิต
แหล่งที่มา

ผู้ชมอีกคนอยู่เหนือศีรษะและกระซิบเคล็ดลับกับคุณว่า “ชายเสื้อแดงชนะการแข่งขัน 3 รายการสุดท้ายจาก 4 รายการ” จะเกิดอะไรขึ้นกับการเดิมพันของคุณ? คุณไม่แน่ใจอีกต่อไปแล้วใช่ไหม

สมมติว่าคุณได้เรียนรู้ด้วยว่าครั้งสุดท้ายที่ชายแจ็กเก็ตสีดำสวมแว่นกันแดดนำโชคของเขา เขาชนะ และครั้งที่เขาไม่ใส่มัน คนเสื้อแดงก็ชนะ

วันนี้คุณเห็นชายแจ็กเก็ตสีดำสวมแว่นตานั่น ความเชื่อของคุณเปลี่ยนไปอีกครั้ง ตอนนี้คุณมีความเชื่อมั่นในการเดิมพันของคุณมากขึ้นใช่ไหม ในเรื่องนี้ คุณได้อัปเดตความเชื่อของคุณทุกครั้งที่มีหลักฐานของข้อมูลใหม่ นั่นคือแนวทางแบบเบย์เซียน

เรื่องราวต้นกำเนิดแบบเบย์

เมื่อสาธุคุณโธมัส เบย์สนึกถึงทฤษฎีของเขาเป็นครั้งแรก เขาไม่คิดว่ามันควรค่าแก่การตีพิมพ์ ดังนั้นมันจึงอยู่ในบันทึกของเขามานานกว่าทศวรรษ เมื่อครอบครัวของเขาขอให้ริชาร์ด ไพรซ์อ่านบันทึกของเขาว่าไพรซ์ค้นพบโน้ตที่เป็นรากฐานของทฤษฎีบทของเบย์

มันเริ่มต้นด้วยการทดลองทางความคิดของเบย์ เขาคิดที่จะนั่งโดยให้หลังของเขากับโต๊ะแบนราบและให้ผู้ช่วยโยนลูกบอลลงบนโต๊ะ

ลูกบอลสามารถตกลงไปที่ใดก็ได้บนโต๊ะ แต่ Bayes คิดว่าเขาสามารถเดาได้ว่าที่ไหนโดยอัปเดตการเดาของเขาด้วยข้อมูลใหม่ เมื่อลูกบอลตกลงบนโต๊ะ ให้ผู้ช่วยบอกเขาว่าลูกบอลตกลงไปทางซ้ายหรือขวา ข้างหน้าหรือข้างหลัง

เขาตั้งข้อสังเกตและฟังเมื่อลูกบอลตกลงบนโต๊ะมากขึ้น ด้วยข้อมูลเพิ่มเติมเช่นนี้ เขาพบว่าเขาสามารถปรับปรุงความแม่นยำในการเดาของเขาได้ในการโยนแต่ละครั้ง สิ่งนี้ทำให้เกิดแนวคิดในการปรับปรุงความเข้าใจของเราในขณะที่เราได้รับหลักฐานเพิ่มเติมจากการสังเกต

ทฤษฎีบทเบย์ ไพรเมอร์สถิติเบย์
แหล่งที่มา

แนวทาง Bayesian ในการวิเคราะห์ข้อมูลถูกนำไปใช้ในหลายสาขา เช่น วิทยาศาสตร์และวิศวกรรมศาสตร์ และรวมถึงกีฬาและกฎหมายด้วย

ในการทดลองควบคุมแบบสุ่มทางออนไลน์ โดยเฉพาะการทดสอบ A/B คุณสามารถใช้แนวทางแบบเบย์ใน 4 ขั้นตอน:

  1. ระบุการแจกจ่ายก่อนหน้าของคุณ
  2. เลือกแบบจำลองทางสถิติที่สะท้อนความเชื่อของคุณ
  3. เรียกใช้การทดสอบ
  4. หลังจากการสังเกต ปรับปรุงความเชื่อของคุณและคำนวณการแจกแจงหลัง

คุณอัปเดตความเชื่อของคุณโดยใช้ชุดกฎที่เรียกว่าอัลกอริทึมแบบเบย์

ตัวอย่างสถิติเบย์ที่ใช้กับการทดสอบ A/B

มาดูตัวอย่างการทดสอบ A/B แบบเบย์กัน

ลองนึกภาพว่าเราทำการทดสอบ A/B แบบง่ายๆ บนปุ่ม CTA ของร้านค้า Shopify สำหรับ “A” เราใช้ “Add to Cart” และสำหรับ “B” เราใช้ “Add to Your Basket”

นี่คือวิธีที่ผู้ที่มาบ่อยจะเข้าใกล้การทดสอบ

มีสองโลกทางเลือก: โลกหนึ่งที่ A และ B ไม่แตกต่างกัน ดังนั้นการทดสอบจะไม่แสดงความแตกต่างของอัตราการแปลง นั่นคือสมมติฐานว่าง และในอีกโลกหนึ่ง มีความแตกต่างกัน ดังนั้นปุ่มหนึ่งจะทำงานได้ดีกว่าอีกปุ่มหนึ่ง

ผู้ที่ใช้บ่อยจะถือว่าเราอยู่ในโลกที่ 1 ซึ่งไม่มีความแตกต่างในปุ่ม CTA นั่นคือ สมมติว่าสมมติฐานว่างเป็นจริง จากนั้นพวกเขาจะพยายามพิสูจน์ว่าผิดถึงระดับความแน่นอนที่กำหนดไว้ล่วงหน้าซึ่งเรียกว่าระดับนัยสำคัญ

แต่นี่คือวิธีที่ Bayesian จะทำการทดสอบแบบเดียวกัน:

พวกเขาเริ่มต้นด้วยความเชื่อก่อนหน้านี้ว่าทั้งปุ่ม A และ B มีโอกาสเท่าเทียมกันในการสร้างอัตราการแปลงระหว่าง 0 ถึง 100% ดังนั้นจึงมีความเท่าเทียมกันของปุ่มตั้งแต่เริ่มต้น — ทั้งคู่มีโอกาส 50% ที่จะเป็นนักแสดงชั้นนำ

จากนั้นการทดสอบจะเริ่มขึ้นและรวบรวมข้อมูล จากการสังเกตข้อมูลใหม่ ผู้ทดสอบ A/B ของ Bayesian จะอัปเดตความรู้ของตน ดังนั้น ถ้า B แสดงสัญญา พวกเขาสามารถเข้าถึงความเชื่อภายหลังตามข้อสังเกตนั้นว่า "B มีโอกาส 61% ที่จะชนะ A"

มีความแตกต่างหลักระหว่างสองวิธี

นั่นเป็นเหตุผลสำคัญที่เราต้องรักษาแนวทางที่เป็นกลางในการทดสอบ A/B แบบเบย์

เครื่องมือทดสอบ A/B ของ Bayesian ส่วนใหญ่ - อาจเป็นเพื่อวัตถุประสงค์ทางการตลาด - ใช้จุดยืนต่อต้านความถี่ที่ร้ายแรงและผลักดันข้อโต้แย้งว่า Bayesian ดีกว่าที่จะบอกคุณว่าตัวแปรใด "ทำกำไรได้" มากกว่า

แต่วิธีการทางสถิติเดียวในการทดสอบ A/B นั้นมีสิทธิ์เฉพาะตัวในข้อมูลเชิงลึกหรือไม่

หากมีการผลักดันข้อโต้แย้งแบบเบย์มากขึ้น พวกเขาอาจต้องเผชิญกับการศึกษาที่ผู้ตอบแบบสอบถามกล่าวว่าพวกเขาต้องการทราบว่าแนวทางปฏิบัติที่ดีที่สุดคืออะไร หรือพวกเขาต้องการเพิ่มผลกำไรสูงสุดหรือสิ่งที่คล้ายกัน สิ่งนี้ทำให้คำถามอยู่ในขอบเขตทฤษฎีการตัดสินใจอย่างแน่นหนา - สิ่งที่ทั้งการอนุมานแบบเบย์และการอนุมานแบบใช้บ่อยไม่สามารถพูดได้โดยตรง

Georgi Georgiev ผู้สร้าง Analytics-toolkit.com และผู้เขียน “Statistical Methods in Online A/B Testing”

เราจะเจาะลึกรายละเอียดเหล่านี้โดยย่อในหัวข้อถัดไป ในตอนนี้ เรามาทำให้ไพรเมอร์ที่เหลือนี้ง่ายต่อการเข้าใจกันก่อน

อภิธานศัพท์สั้นๆ ของคำศัพท์ Bayesian ที่มีความสำคัญต่อผู้ทดสอบ A/B

การอนุมานแบบเบย์

การอนุมานแบบเบย์กำลังอัปเดตความน่าจะเป็นสำหรับสมมติฐานด้วยข้อมูลใหม่ มันสร้างขึ้นจากความเชื่อและความน่าจะเป็น

การอนุมานแบบเบย์ใช้ประโยชน์จากความน่าจะเป็นแบบมีเงื่อนไขเพื่อช่วยให้เราเข้าใจว่าข้อมูลส่งผลต่อความเชื่อของเราอย่างไร สมมติว่าเราเริ่มด้วยความเชื่อก่อนว่าท้องฟ้าเป็นสีแดง หลังจากดูข้อมูลบางอย่างแล้ว ในไม่ช้าเราจะรู้ว่าความเชื่อก่อนหน้านี้นี้ผิด ดังนั้นเราจึงดำเนินการอัปเดตแบบเบย์เซียนเพื่อปรับปรุงแบบจำลองที่ไม่ถูกต้องเกี่ยวกับสีของท้องฟ้า และจบลงด้วยความเชื่อทางด้านหลังที่แม่นยำยิ่งขึ้น

Michael Berk ใน Towards Data Science

ความน่าจะเป็นแบบมีเงื่อนไข

ความน่าจะเป็นแบบมีเงื่อนไขคือความน่าจะเป็นของเหตุการณ์หนึ่งที่มีเหตุการณ์อื่นเกิดขึ้น นั่นคือ ความน่าจะเป็นของ A ภายใต้เงื่อนไข B

สถิติความน่าจะเป็นแบบมีเงื่อนไข

การ แปล: ความน่าจะเป็นของเหตุการณ์ A ที่เกิดขึ้นจากเหตุการณ์อื่น B ​​เท่ากับความน่าจะเป็นของ B และ A ที่เกิดขึ้นร่วมกันหารด้วยความน่าจะเป็นของเหตุการณ์ B

การกระจายความน่าจะเป็น/การกระจายความน่าจะเป็น

การแจกแจงความน่าจะเป็นคือการแจกแจงที่แสดงว่าข้อมูลของคุณจะถือว่าค่าเฉพาะนั้นเป็นไปได้มากน้อยเพียงใด

ในกรณีที่ข้อมูลของคุณสามารถสมมติค่าได้หลายค่า เช่น หมวดหมู่ เช่น สี ซึ่งอาจเป็นสีเทา สีแดง สีส้ม สีฟ้า ฯลฯ การกระจายของคุณเป็นแบบพหุนาม สำหรับชุดตัวเลข การแจกแจงอาจเป็นปกติ และสำหรับค่าข้อมูลที่อาจเป็นใช่/ไม่ใช่ หรือ จริง/เท็จ จะเป็นแบบทวินาม

การกระจายความเชื่อก่อนหน้า

หรือการแจกแจงความน่าจะเป็นก่อนหน้า เรียกง่ายๆ ว่าก่อน เป็นการแสดงออกถึงความเชื่อของคุณก่อนที่คุณจะได้รับหลักฐานของข้อมูลใหม่ ดังนั้นจึงเป็นการแสดงออกถึงความเชื่อเริ่มต้นของคุณซึ่งคุณจะอัปเดตหลังจากพิจารณาหลักฐานบางอย่างโดยใช้การวิเคราะห์แบบเบย์ (หรือการอนุมาน)

คอนจูกาซี

ประการแรก คอนจูเกตหมายถึงการรวมเข้าด้วยกัน มักจะเป็นคู่ ในทฤษฎีความน่าจะเป็นแบบเบย์ คอนจูกาซีจะถือว่าก่อนหน้านั้นคอนจูเกตกับความน่าจะเป็น

ถ้าส่วนหลังมีรูปแบบการทำงานเหมือนกับก่อนหน้า ดังนั้นค่าก่อนหน้าจะผสานกับฟังก์ชันความน่าจะเป็น นี่แสดงให้เห็นว่าฟังก์ชันความน่าจะเป็นจะอัปเดตการแจกแจงก่อนหน้าอย่างไร

สถิติการผันคำกริยาแบบเบย์
แหล่งที่มา

Conjugate Priors

สิ่งนี้เชื่อมโยงกับคำจำกัดความข้างต้น ถ้าหลังอยู่ในกลุ่มการกระจายความน่าจะเป็นเดียวกัน (หรือมีรูปแบบการทำงานเหมือนกัน) กับการแจกแจงความน่าจะเป็นก่อนหน้า การแจกแจงก่อนหน้าและหลังจะเป็นการแจกแจงแบบคอนจูเกต ในกรณีนี้ ค่าก่อนหน้านี้เรียกว่าคอนจูเกตก่อนสำหรับฟังก์ชันความน่าจะเป็น

พวกเขาอาจเป็นอัตนัย (ตามความรู้ของผู้ทดลอง) วัตถุประสงค์และข้อมูล (ตามข้อมูลทางประวัติศาสตร์) หรือไม่ใช่ข้อมูล

ฟังก์ชั่นการสูญเสีย

ฟังก์ชันการสูญเสียเป็นวิธีการหาปริมาณการสูญเสียโดยการวัดว่าค่าประมาณปัจจุบันของเราแย่แค่ไหน ช่วยให้เราลดการสูญเสียสำหรับการทดสอบสมมติฐาน โดยเฉพาะอย่างยิ่งเมื่อแสดงการอนุมานซึ่งอยู่ในช่วงของค่าที่น่าจะเป็นไปได้ และสนับสนุนการตัดสินใจด้วยผลการทดสอบของเรา

หมดหนทางแล้ว เราไปต่อได้

หากคุณเคยอยู่แถวนี้มาระยะหนึ่งแล้ว คุณอาจเจอมส์สถิติ Frequentist vs Bayesian มากกว่าสองสามแบบ

มีมเกี่ยวกับสถิติ Bayesian vs Frequentist
แหล่งที่มา

ทั้งสองฝ่ายดูเหมือนจะค้นหาคำตอบจากทิศทางตรงกันข้าม แต่เป็นเช่นนั้นจริงหรือ? เพื่อให้เข้าใจดีขึ้น (ในขณะที่ยังคงเป็นกลาง) ให้ไปที่ค่าย Frequentists

สถิติความถี่คืออะไร?

นี่เป็นเทคนิคอนุมานแรกที่คนส่วนใหญ่เรียนรู้ในสถิติ สถิติที่ใช้บ่อยคำนวณความน่าจะเป็นที่เหตุการณ์ (สมมติฐาน) เกิดขึ้นบ่อยครั้งภายใต้เงื่อนไขเดียวกัน

การทดสอบสมมติฐาน A/B โดยใช้วิธีการที่ใช้บ่อยมีขั้นตอนดังนี้:

  1. ประกาศสมมติฐานบางอย่าง โดยทั่วไป สมมติฐานว่างคือตัวแปรใหม่ “B” ไม่ได้ดีไปกว่า “A” ดั้งเดิมในขณะที่สมมติฐานทางเลือกประกาศตรงกันข้าม
  2. กำหนดขนาดตัวอย่างล่วงหน้าโดยใช้การคำนวณกำลังทางสถิติ เว้นแต่คุณจะใช้วิธีการทดสอบตามลำดับ ใช้เครื่องคำนวณขนาดตัวอย่างซึ่งพิจารณากำลังทางสถิติ อัตราการแปลงปัจจุบัน และผลที่ตรวจพบขั้นต่ำ
  3. เรียกใช้การทดสอบ และรอให้แต่ละรูปแบบได้สัมผัสกับขนาดตัวอย่างที่กำหนดไว้ล่วงหน้า
  4. คำนวณความน่าจะเป็นของการสังเกตผลลัพธ์อย่างน้อยที่สุดเท่ากับข้อมูลภายใต้สมมติฐานว่าง (p-value) ปฏิเสธสมมติฐานว่างและปรับใช้ตัวแปรใหม่กับการใช้งานจริงหากค่า p < 5%

สิ่งนี้เปรียบเทียบกับ Bayesian ได้อย่างไร มาดูกัน…

การทดสอบ A/B แบบ Bayesian กับ Frequentist

นี่เป็นการอภิปรายที่มีชื่อเสียงในทุกที่ที่มีการอนุมานทางสถิติ และบอกตรงๆ ว่าไร้สาระ ทั้งสองมีข้อดีและกรณีที่เป็นวิธีที่ดีที่สุดในการใช้

ตรงกันข้ามกับสิ่งที่คุณคิดในโปรโมเตอร์ส่วนใหญ่ในทั้งสองค่าย พวกเขามีความคล้ายคลึงกันในหลาย ๆ ด้านและไม่ได้ใกล้ชิดกับความจริงมากไปกว่าที่อื่น ๆ แม้ว่าแนวทางของพวกเขาจะแตกต่างกัน

ตัวอย่างเช่น เมื่อนำไปใช้กับการทดสอบ A/B ไม่มีวิธีใดที่เจาะจงที่จะให้การคาดการณ์ที่แม่นยำและแม่นยำในแง่ของการดำเนินการที่จะทำให้ธุรกิจเติบโต การทดสอบ A/B ช่วยให้คุณขจัดความเสี่ยงออกจากการตัดสินใจได้

ไม่ว่าคุณจะวิเคราะห์ข้อมูลด้วยวิธีใด โดยใช้วิธีการแบบ Bayesian หรือ Frequentist คุณสามารถดำเนินการได้ด้วยความมั่นใจว่าคุณพูดถูกในระดับหนึ่ง

และด้วยเหตุนั้น แบบจำลองทางสถิติทั้งสองแบบจึงถูกต้อง Bayesian อาจมีข้อได้เปรียบด้านความเร็ว แต่มีความต้องการด้านการคำนวณมากกว่า Frequentist

ตรวจสอบความแตกต่างอื่น ๆ ...

กรอบงานบ่อย

พวกเราส่วนใหญ่คุ้นเคยกับแนวทางที่ใช้บ่อยจากหลักสูตรสถิติเบื้องต้น เราได้กำหนดวิธีการข้างต้น — ตั้งแต่การประกาศสมมติฐานว่าง การกำหนดขนาดตัวอย่าง การรวบรวมข้อมูลผ่านการทดลองแบบสุ่ม และในที่สุดก็สังเกตผลลัพธ์ที่มีนัยสำคัญทางสถิติ

ใน Frequentism เรามองว่าความน่าจะเป็นนั้นสัมพันธ์กับความถี่ของเหตุการณ์ที่เกิดซ้ำ ดังนั้น ในการโยนเหรียญที่ยุติธรรม นักเล่นประจำเชื่อว่าหากพวกเขาเดาบ่อยพอ พวกเขาจะได้หัวที่ถูกต้อง 50% ของเวลา และเช่นเดียวกันสำหรับก้อย

Frequentist mindset: “ถ้าฉันทำการทดลองซ้ำในเงื่อนไขเดิมซ้ำแล้วซ้ำเล่า วิธีของฉันจะได้คำตอบที่ถูกต้องมีมากแค่ไหน”

กรอบการทำงานแบบเบย์

ในขณะที่แนวทางที่ใช้บ่อยถือว่าพารามิเตอร์ประชากรสำหรับตัวแปรแต่ละตัวเป็นค่าคงที่ (ไม่ทราบ) วิธีแบบเบย์จะจำลองค่าพารามิเตอร์แต่ละค่าเป็นตัวแปรสุ่มพร้อมการแจกแจงความน่าจะเป็นบางส่วน

ที่นี่ คุณคำนวณการแจกแจงความน่าจะเป็น (และค่าที่คาดไว้) สำหรับพารามิเตอร์ที่สนใจโดยตรง

และเพื่อจำลองการกระจายความน่าจะเป็นสำหรับตัวแปรแต่ละตัว เราอาศัยกฎของเบย์เพื่อรวมผลการทดสอบกับความรู้ก่อนหน้าใดๆ ที่เรามีเกี่ยวกับเมตริกที่น่าสนใจ เราสามารถลดความซับซ้อนของการคำนวณโดยใช้คอนจูเกตก่อน

Alex Birkett สรุปอัลกอริทึมแบบเบย์ดังนี้:

  • กำหนดการกระจายก่อนหน้าที่รวมเอาความเชื่อส่วนตัวของคุณเกี่ยวกับพารามิเตอร์ ก่อนหน้านี้อาจไม่มีข้อมูลหรือให้ข้อมูล
  • รวบรวมข้อมูล
  • อัปเดตการแจกแจงก่อนหน้าของคุณด้วยข้อมูลโดยใช้ทฤษฎีบทของเบย์ (แม้ว่าคุณจะมีวิธีแบบเบย์โดยไม่ต้องใช้กฎของเบย์อย่างชัดแจ้ง—ดูแบบไม่มีพารามิเตอร์แบบอิงพารามิเตอร์) เพื่อรับการแจกแจงหลัง การแจกแจงหลังเป็นการแจกแจงความน่าจะเป็นที่แสดงถึงความเชื่อที่อัปเดตของคุณเกี่ยวกับพารามิเตอร์หลังจากดูข้อมูลแล้ว
  • วิเคราะห์การแจกแจงหลังและสรุป (mean, median, sd, quantiles…)

กล่าวโดยสรุป ผู้ทดลองแบบเบย์มุ่งเน้นไปที่มุมมองของตนเองและความน่าจะเป็นที่มีความหมายต่อพวกเขา ความคิดเห็นของพวกเขาวิวัฒนาการด้วยข้อมูลที่สังเกตได้ ในทางกลับกันผู้ที่มาบ่อยเชื่อว่าคำตอบที่ถูกต้องอยู่ที่ไหนสักแห่ง

เข้าใจว่าการโต้วาทีบ่อยครั้งและแบบเบส์ไม่ส่งผลกระทบต่อการวิเคราะห์หลังการทดสอบ A/B มากขนาดนั้น ความแตกต่างที่สำคัญระหว่างทั้งสองค่ายนั้นสัมพันธ์กับสิ่งที่สามารถทดสอบได้มากกว่า

โดยทั่วไปแล้วสถิติความน่าจะเป็นจะไม่ถูกนำมาใช้ในการวิเคราะห์ในภายหลัง อาร์กิวเมนต์ Bayesian-Frequentist ใช้ได้กับการเลือกตัวแปรที่จะทดสอบในกระบวนทัศน์ A/B มากกว่า แต่ถึงแม้จะมีผู้ทดสอบ A/B ส่วนใหญ่ก็ยังฝ่าฝืนสมมติฐานการวิจัย ความน่าจะเป็น และช่วงความเชื่อมั่น

ดร.ร็อบ บาลอน ถึง CXL

Georgi อธิบายเพิ่มเติมว่า:

มีเครื่องคิดเลข Bayesian ออนไลน์หลายเครื่องและผู้จำหน่ายซอฟต์แวร์ทดสอบ A/B รายใหญ่อย่างน้อยหนึ่งรายที่ใช้เอ็นจิ้นทางสถิติแบบเบย์ซึ่งทั้งหมดใช้สิ่งที่เรียกว่านักบวชที่ไม่ให้ข้อมูล (เรียกชื่อผิดนิดหน่อย แต่อย่าเจาะลึกเรื่องนี้) ในกรณีส่วนใหญ่ ผลลัพธ์จากเครื่องมือเหล่านี้ตรงกับตัวเลขกับผลลัพธ์จากการทดสอบบ่อยครั้งในข้อมูลเดียวกัน สมมติว่าเครื่องมือ Bayesian จะรายงานบางอย่างเช่น 'ความน่าจะเป็น 96% ที่ B ดีกว่า A' ในขณะที่เครื่องมือที่ใช้บ่อยจะสร้างค่า p ที่ 0.04 ซึ่งสอดคล้องกับระดับความเชื่อมั่น 96%

ในสถานการณ์เช่นนี้ ซึ่งพบได้ทั่วไปมากกว่าที่บางคนต้องการยอมรับ ทั้งสองวิธีจะนำไปสู่การอนุมานเดียวกัน และระดับของความไม่แน่นอนจะเท่ากัน แม้ว่าการตีความจะต่างกัน

ชาวเบย์จะพูดอะไรเกี่ยวกับผลลัพธ์นี้ มันเปลี่ยนค่า p เป็นความน่าจะเป็นหลังที่เหมาะสมเมื่อดูสถานการณ์ที่ไม่มีข้อมูลก่อนหน้าหรือไม่? หรือแอปพลิเคชันทั้งหมดของการทดสอบแบบเบย์เหล่านี้เข้าใจผิดสำหรับการใช้แบบไม่มีข้อมูลก่อนหน้าต่อ se?

ไม่จำเป็นต้องเลือกค่ายและหาจุดหลังที่กำบังเพื่อปาก้อนหินที่ค่ายอื่น มีหลักฐานว่าเฟรมเวิร์กทั้งสองให้ผลลัพธ์ที่เหมือนกัน ไม่ว่าจะเลือกทางไหน ปลายทางก็คงจะเหมือนเดิม ขึ้นอยู่กับว่าคุณจะไปที่นั่นด้วย Frequentist vs Bayesian ได้อย่างไร

ตัวอย่างเช่น:

  1. มีข้อมูลที่แสดงว่าการทดสอบแบบเบย์นั้นเร็วกว่าและเป็นตัวเลือกที่ต้องการสำหรับการทดสอบเชิงโต้ตอบ:

    เนื่องจากกระบวนทัศน์แบบเบย์ทำให้ผู้ทดลองสามารถหาปริมาณความเชื่ออย่างเป็นทางการและรวมความรู้เพิ่มเติมเข้าด้วยกัน จึงเร็วกว่าการวิเคราะห์ทางสถิติแบบเดิม

    ในการจำลองการทดสอบ A/B แบบเบย์ เมื่อมีการปรับเกณฑ์การตัดสินใจ (เช่น เพิ่มความทนทานต่อข้อผิดพลาด) 75% ของการทดลองสรุปได้ภายใน 22.7% ของการสังเกตที่กำหนดโดยวิธีการแบบเดิม (ที่ระดับนัยสำคัญ 5%) และบันทึกข้อผิดพลาดประเภท II เพียง 10% เท่านั้น
  2. Bayesian ยังถือว่าให้อภัยมากกว่า ในขณะที่ Frequentist ไม่ชอบความเสี่ยง:

    แม้ว่าการทดสอบ Frequentist จำนวนมากใช้นัยสำคัญทางสถิติที่ 95% แต่ Bayesian ก็พอใจได้น้อยกว่านั้น หากตัวแปรมีโอกาส 78% ที่จะเอาชนะส่วนควบคุม ขึ้นอยู่กับการสูญเสียที่คาดหวัง อาจเป็นการตัดสินใจที่ดีที่จะ "ปรับใช้ตัวแปรนั้น"

    หากคุณผิดและคาดว่าจะขาดทุนน้อยกว่าร้อยละ นั่นเป็นความเสียหายเล็กน้อยสำหรับธุรกิจจำนวนมาก แนวทางที่กระท่อนกระแท่นนี้อาจเหมาะกว่าสำหรับการตัดสินใจอย่างรวดเร็วในสถานการณ์ที่มีความเสี่ยงต่ำมาก
  3. อย่างไรก็ตาม การจำลองและการคำนวณแบบเบย์นั้นใช้การคำนวณอย่างหนัก:

    ในทางกลับกัน frequentist นั้นใช้ปากกาและกระดาษ คำเตือน: หากเครื่องมือทดสอบ A/B ของคุณใช้ Bayesian และคุณไม่ทราบว่ามีการเพิ่มสมมติฐานใดในข้อมูลของคุณ คุณจะไม่สามารถพึ่งพา "คำตอบ" ที่ผู้ขายของคุณมอบให้คุณได้ ใช้เกลือเล็กน้อย และดำเนินการวิเคราะห์ของคุณเอง

ไม่ใช่แสงแดดและรุ้งกับเบย์เซียน เช่นเดียวกับ Georgi ชี้ให้เห็นรายการคำถามนี้:

  • “คุณต้องการได้ผลลัพธ์ของความน่าจะเป็นก่อนหน้าและฟังก์ชันความน่าจะเป็นหรือไม่”
  • “คุณต้องการผสมระหว่างความน่าจะเป็นและข้อมูลก่อนหน้าเป็นผลลัพธ์หรือไม่”
  • “คุณต้องการความเชื่อส่วนตัวผสมกับข้อมูลเพื่อสร้างผลลัพธ์หรือไม่” (ถ้าใช้ข้อมูลก่อน)
  • “คุณสะดวกไหมที่จะนำเสนอสถิติซึ่งมีข้อมูลก่อนหน้านี้ที่สันนิษฐานว่ามีความแน่นอนสูงผสมกับข้อมูลจริง”

สิ่งเหล่านี้เป็นสถิติแบบเบย์ทั้งหมดในแง่ของฆราวาส

สถิติแบบเบย์บอกอะไรคุณได้บ้างในการทดสอบ A/B?

คุณออกแบบการทดสอบ A/B เพื่อให้ข้อมูลเชิงลึกว่าการเปลี่ยนแปลงส่งผลต่อเมตริกที่คุณสนใจอย่างไร เช่น อัตรา Conversion หรือรายได้ต่อผู้เข้าชม

เมื่อคุณใช้เครื่องมือที่ทำงานร่วมกับสถิติแบบเบย์ สิ่งสำคัญคือต้องเข้าใจว่าผลลัพธ์ของคุณหมายถึงอะไร เพราะ "B คือผู้ชนะ" ไม่ได้หมายความว่าสิ่งที่คนส่วนใหญ่คิดจะทำอย่างแน่นอน

เครื่องคิดเลขทดสอบ A/B แบบเบย์
เครื่องคิดเลขทดสอบ A/B แบบเบย์

เป็นวิธีที่สะดวกในการนำเสนอผลลัพธ์ แต่นั่นไม่ใช่สิ่งที่การทดสอบของคุณเปิดเผย คำตอบที่คุณต้องการจะอยู่ในการเปรียบเทียบด้านหลังของ "A" และ "B"

เปรียบเทียบได้ 3 วิธีดังนี้

ความน่าจะเป็นที่จะดีที่สุด (P2BB)

สถิติแบบเบย์ในการทดสอบ A/B น่าจะเป็น P2BB . ที่ดีที่สุด

นี่คือความน่าจะเป็นที่จะประกาศผู้ชนะในการทดสอบ A/B แบบเบย์

ตัวแปรที่มีความเป็นไปได้ที่จะดีที่สุดคือตัวแปรที่มีความเป็นไปได้สูงที่สุดที่จะทำผลงานได้ดีกว่าอีกตัวเลือกหนึ่ง

ซึ่งคำนวณจากชุดตัวอย่างหลังของการวัดดอกเบี้ยจากต้นฉบับและผู้ท้าชิง

ดังนั้น หาก B มีความเป็นไปได้สูงที่สุดในการเพิ่มอัตราการแปลงของคุณ ตัวอย่างเช่น B จะถูกประกาศให้เป็นผู้ชนะ

ความคาดหวังที่เพิ่มขึ้น

สถิติแบบเบย์ในการทดสอบ A/B คาดว่าจะเพิ่มขึ้น

แล้วถ้า B เป็นผู้ชนะ เราควรคาดหวังการยกระดับมากแค่ไหน? มันจะยังคงให้ผลลัพธ์แบบเดียวกับที่เราเห็นในการทดสอบหรือไม่?

นั่นคือข้อมูลเชิงลึกที่คาดว่าจะได้รับการยกระดับขึ้น การเพิ่มขึ้นที่คาดไว้ของการเลือก B ส่วน A โดยให้ชุดตัวอย่างด้านหลัง ถูกกำหนดเป็นช่วงที่น่าเชื่อถือ (หรือค่าเฉลี่ย) ของเปอร์เซ็นต์ที่เพิ่มขึ้น

ในการทดสอบ A/B เรามักจะเปรียบเทียบสิ่งนี้ว่าเป็นผู้ท้าชิงกับกลุ่มควบคุม ดังนั้น หากผู้ท้าชิงแพ้ มันจะแสดงเป็นค่าลบ (เช่น -11.35%) และค่าบวก (เช่น +9.58%) หากชนะ

ขาดทุนที่คาดหวัง

สถิติแบบเบย์ในการทดสอบ A/B ที่คาดว่าจะขาดทุน

เนื่องจากไม่มีความน่าจะเป็น 100% ที่ B ดีกว่า A จึงมีโอกาสที่จะบันทึกการสูญเสียหากคุณเลือก B ส่วน A ซึ่งแสดงเป็นการสูญเสียที่คาดหวัง และเช่นเดียวกับการเพิ่มขึ้นที่คาดหวัง มันแสดงจาก มุมมองของผู้ท้าชิงกับการควบคุม

มันบอกคุณถึงความเสี่ยงในการเลือกตัวแปร P2BB ของคุณ (เช่น ผู้ชนะที่ประกาศแล้ว)

ก่อนที่เราจะดำดิ่งสู่ตำนาน ขอขอบคุณนักวิเคราะห์ตำนาน Georgi Georgiev การวิเคราะห์เชิงลึกของเขาเกี่ยวกับการอนุมานที่ใช้บ่อยเทียบกับแบบเบย์ และความน่าจะเป็นและสถิติแบบเบย์ในการทดสอบ A/B เป็นแรงบันดาลใจในส่วนถัดไป

ตำนานเกี่ยวกับสถิติแบบเบย์ที่ควรหลีกเลี่ยง

ด้วยการแข่งขันที่เกือบจะเก่าเท่าที่ไม่จำเป็น การดีเบตแบบ Bayesian vs Frequentist ได้รวบรวมข้อมูลจำนวนมาก — และก่อให้เกิดตำนานมากมาย

ตำนานที่ใหญ่ที่สุดเหล่านี้ (ตำนาน #2) ได้รับการส่งเสริมโดยผู้จำหน่ายเครื่องมือทดสอบ A/B เพื่อบอกคุณว่าเหตุใดวิธีการหนึ่งจึงดีกว่าอีกวิธีหนึ่ง

แต่หลังจากอ่านหัวข้อด้านบนแล้ว คุณก็รู้ดีขึ้น

มาเปิดเผยหลุมในตำนานเหล่านี้กัน

ตำนาน # 1: Bayesians ระบุสมมติฐานของพวกเขา Frequentists Don't

นี่แสดงให้เห็นว่าชาวเบย์ตั้งสมมติฐานในรูปแบบของการแจกแจงล่วงหน้าและเปิดให้ประเมินได้ แต่ผู้ที่มักใช้บ่อยมักตั้งสมมติฐานที่ซ่อนอยู่ตรงกลางคณิตศาสตร์

ทำไมมันผิด: Bayesians และ Frequentists สร้างสมมติฐานพื้นฐานที่คล้ายกัน ความแตกต่างเพียงอย่างเดียวคือ Bayesians สร้างสมมติฐานเพิ่มเติม — ด้านบนของคณิตศาสตร์

แบบจำลองที่ใช้บ่อยใช้สมมติฐานในการคำนวณ เช่น รูปร่างของการกระจาย ความเหมือนกันหรือความแตกต่างของผลกระทบจากการสังเกต และความเป็นอิสระของการสังเกต และพวกเขาไม่ได้ซ่อนเร้น อันที่จริง มีการพูดคุยกันอย่างกว้างขวางในชุมชนทางสถิติและระบุไว้สำหรับการทดสอบทางสถิติที่ใช้บ่อยทุกครั้ง

ความจริง: ผู้ที่ใช้บ่อยระบุสมมติฐานของตนอย่างชัดเจนและดำเนินการอีกขั้นเพื่อทดสอบสมมติฐาน: การทดสอบความปกติ การทดสอบความพอดี (ซึ่งเรามีการทดสอบอัตราส่วนตัวอย่างที่ไม่ตรงกัน) และอื่นๆ

ตำนาน # 2 วิธีการแบบเบย์ให้คำตอบที่คุณต้องการจริงๆ

ความเข้าใจผิดที่นี่คือ p-values ​​และช่วงความเชื่อมั่นไม่ได้บอกผู้ทดสอบถึงสิ่งที่พวกเขาต้องการทราบ ในขณะที่ความน่าจะเป็นหลังและช่วงที่น่าเชื่อถือทำ คนอยากรู้เรื่องเช่น

  • ความน่าจะเป็นที่ B ทำได้ดีกว่า A และ
  • โอกาสที่ผลลัพธ์จะไม่ใช่เรื่องบังเอิญ

การทดสอบค่า P และสมมติฐาน (การอนุมานตรง) ไม่ได้ให้ข้อมูลนั้น แต่การอนุมานแบบผกผันให้

ทำไมมันผิด: นี่เป็นคำถามเกี่ยวกับภาษาศาสตร์ โดยทั่วไป เมื่อผู้ที่ไม่ใช่นักสถิติใช้คำต่างๆ เช่น "ความน่าจะเป็น" "โอกาส" และ "ความน่าจะเป็น" พวกเขาไม่ได้ใช้คำเหล่านี้โดยคำนึงถึงความหมายทางเทคนิคในใจ สำรวจให้ลึกขึ้นและคุณจะพบว่าพวกเขาสับสนเกี่ยวกับการอนุมานแบบผกผันพอ ๆ กับการอนุมานแบบตรง

ตามที่ Georgi Georgiev คำถามเหล่านี้เริ่มปรากฏขึ้น:

  • ความ น่าจะเป็นก่อนหน้าคืออะไร? มันนำมาซึ่งคุณค่าอะไร?”
  • “ฟังก์ชันความน่าจะเป็นคืออะไร”
  • “ความน่าจะเป็น 'ก่อนหน้า' คืออะไร ฉันไม่มีข้อมูลก่อนหน้านี้”
  • “ฉันจะปกป้องทางเลือกของความน่าจะเป็นก่อนหน้าได้อย่างไร”
  • “มีวิธีสื่อสารตามที่ข้อมูลพูดโดยไม่มีส่วนผสมเหล่านี้หรือไม่”

ความจริง: ควรมีข้อมูลเชิงลึกที่ดีกว่าในสิ่งที่ผู้ทดสอบต้องการทราบ ไม่ใช่การตีความข้อกำหนดทางเทคนิคที่ผิด ค่า P ช่วงความเชื่อมั่น และอื่นๆ จะบอกคุณว่าผลลัพธ์ที่ได้นั้นผ่านการสอบสวนมาอย่างดีเพียงใดจากข้อมูลที่รวบรวมมา พวกเขาให้การวัดความแน่นอนโดยไม่มีอิทธิพลของสมมติฐานส่วนตัวที่ไม่ได้ทดสอบก่อน

ตำนาน #3: การอนุมานแบบเบย์ช่วยให้คุณสื่อสารความไม่แน่นอนได้ดีกว่าการอนุมานบ่อยๆ

เนื่องจากผลการทดสอบทำให้เกิดความเข้าใจที่ "มีความหมาย" มากขึ้น

ทำไมจึงผิด: ทั้ง Frequentist และ Bayesian มีเครื่องมือที่คล้ายคลึงกันเพื่อช่วยให้คุณสื่อสารความแน่นอนและผลการทดสอบ A/B ของคุณ

frequentist เบย์เซียน
● ประมาณการคะแนน ● ประมาณการคะแนน
● ค่า P ● ช่วงเวลาที่น่าเชื่อถือ
● ช่วงความเชื่อมั่น ● ปัจจัยเบส์
● เส้นโค้งค่า P ● การแจกแจงหลัง
(ทำภารกิจเดียวกันให้สำเร็จ
เป็นเส้นโค้งความถี่)
● เส้นความมั่นใจ
● เส้นโค้งความรุนแรง ฯลฯ

ความจริง: ทุกอย่างขึ้นอยู่กับว่าคุณใช้มันอย่างไร ทั้งสองวิธีมีประสิทธิภาพเท่าเทียมกันในการสื่อสารความไม่แน่นอน อย่างไรก็ตาม มีความแตกต่างในวิธีการนำเสนอการวัดความไม่แน่นอน

ตำนาน #4. ผลการทดสอบ A/B ของ Bayesian มีภูมิคุ้มกันต่อการแอบมอง

นักสถิติแบบเบย์บางคนโต้แย้งว่า "คุณสามารถหยุดการทดสอบแบบเบย์ได้เมื่อคุณเห็น "ผู้ชนะที่ชัดเจน" และทำให้ผลลัพธ์สุดท้ายแตกต่างกันเล็กน้อย

คุณอาจรู้ว่าสิ่งนี้ไม่เป็นที่ยอมรับในการทดสอบบ่อยครั้ง ดังนั้นจึงถือว่าเสียเปรียบเมื่อเทียบกับแบบเบย์เซียน แต่มันจริงเหรอ?

เหตุใดจึงผิด: ในการศึกษาปี 1969 ในวารสาร Royal Statistical Society เรื่อง “การทดสอบความสำคัญซ้ำซ้อนเกี่ยวกับข้อมูลสะสม”, Armitage et al. แสดงให้เห็นว่าการหยุดทางเลือกตามผลลัพธ์เพิ่มความน่าจะเป็นของข้อผิดพลาดได้อย่างไร

คุณไม่สามารถหยุดแค่เมื่อสังเกตเห็นผู้ชนะ อัปเดตส่วนหลังของคุณ และใช้เป็นลำดับถัดไปโดยไม่ต้องปรับวิธีการทำงานของการวิเคราะห์แบบเบย์

ความจริง: Peeking ส่งผลต่อการอนุมานแบบเบย์มากเท่ากับ Frequentist (ถ้าคุณต้องการทำให้ถูกต้อง)

ตำนาน #5. สถิติที่ใช้บ่อยนั้นไม่มีประสิทธิภาพเนื่องจากคุณต้องรอขนาดตัวอย่างคงที่

สมาชิกบางคนของชุมชน CRO เชื่อว่าการทดสอบทางสถิติที่ใช้บ่อยต้องรันด้วยขนาดตัวอย่างที่ตายตัวและถูกกำหนดไว้ล่วงหน้า มิฉะนั้น ผลลัพธ์จะไม่ถูกต้อง

เป็นผลให้คุณรอนานเกินความจำเป็นเพื่อให้ได้ผลลัพธ์ที่คุณต้องการ

ทำไมมันถึงผิด: สถิติที่ใช้บ่อยไม่ได้ถูกใช้แบบนั้นมาเป็นเวลาประมาณเจ็ดทศวรรษแล้ว ด้วยการทดสอบตามลำดับความถี่ คุณไม่จำเป็นต้องกำหนดระยะเวลาที่กำหนดไว้ล่วงหน้าแบบตายตัว

ความจริง: การทดสอบตามลำดับซึ่งเป็นที่นิยมมากขึ้นในปัจจุบัน ต้องใช้ขนาดตัวอย่าง สูงสุด เพื่อสร้างสมดุลระหว่างข้อผิดพลาดประเภท I และประเภท II แต่ขนาดตัวอย่างจริงที่ใช้จะแตกต่างกันไปในแต่ละกรณี ขึ้นอยู่กับผลลัพธ์ที่สังเกตได้

ดังนั้นคุณควรเลือก Bayesian หรือ Frequentist หรือไม่? มีที่สำหรับทั้งคู่

ไม่จำเป็นต้องเลือกข้าง ทั้งสองวิธีมีสถานที่ของพวกเขา ตัวอย่างเช่น โครงการระยะยาวที่ใช้ตัวก่อนหน้าที่อัปเดตและต้องการผลลัพธ์ที่รวดเร็วจะได้ผลดีกว่าด้วยแนวทางแบบเบย์

ในทางกลับกัน วิธี Frequentist เหมาะที่สุดสำหรับโครงการที่ต้องการความสามารถในการทำซ้ำจำนวนมากในผลลัพธ์ เช่นในการเขียนซอฟต์แวร์ที่หลายคนที่มีชุดข้อมูลจำนวนมากจะใช้

Cassie Kozyrkov หัวหน้าหน่วยข่าวกรองการตัดสินใจของ Google กล่าวว่า "สถิติคือศาสตร์แห่งการเปลี่ยนความคิดของคุณภายใต้ความไม่แน่นอน"

ในวิดีโอสรุปสถิติ Bayesian vs Frequentist ของเธอ เธอกล่าวว่า:

“คุณสามารถใช้การอภิปรายของ Frequentist และ Bayesian แล้วยุบลงไปที่สิ่งที่คุณกำลังเปลี่ยนใจ ผู้ที่มาบ่อยเปลี่ยนใจเกี่ยวกับการกระทำ พวกเขามีการกระทำผิดนัดมากกว่า — บางทีพวกเขาอาจไม่มีความเชื่อ — แต่พวกเขามีการกระทำที่พวกเขาชอบภายใต้ความเขลา แล้วพวกเขาก็ถามว่า “หลักฐานของฉัน [หรือข้อมูล] ทำให้ฉันเปลี่ยนใจหรือไม่ การกระทำนั้น?” “ฉันรู้สึกไร้สาระที่ทำมันโดยอาศัยหลักฐานของฉันหรือเปล่า”

ในทางกลับกัน ชาวเบย์เปลี่ยนใจไปในทางที่ต่างออกไป พวกเขาเริ่มต้นด้วยความคิดเห็น ความคิดเห็นส่วนตัวที่แสดงออกทางคณิตศาสตร์ เรียกว่า ก่อน แล้วจึงถามว่า "ความคิดเห็นที่สมเหตุสมผลที่ฉันควรมีหลังจากรวมหลักฐานแล้วคืออะไร" ดังนั้นผู้ที่ใช้บ่อยจึงเปลี่ยนใจเกี่ยวกับการกระทำ ชาวเบย์จึงเปลี่ยนความคิดเกี่ยวกับความเชื่อ

และขึ้นอยู่กับว่าคุณต้องการวางกรอบการตัดสินใจอย่างไร คุณอาจจะชอบไปกับค่ายหนึ่งมากกว่าที่อื่น”

ในท้ายที่สุด เราทุกคนต่างมุ่งไปสู่ข้อสรุปที่คล้ายคลึงกัน — ความแตกต่างอยู่ที่วิธีการนำเสนอข้อสรุปเหล่านั้นแก่คุณ

หากการอนุมานความถี่สูงและแบบเบย์เป็นฟังก์ชันการเขียนโปรแกรม โดยที่อินพุตเป็นปัญหาทางสถิติ ทั้งสองจะมีความแตกต่างกันในสิ่งที่พวกเขาส่งคืนให้กับผู้ใช้ ฟังก์ชันอนุมานที่ใช้บ่อยจะส่งกลับตัวเลข แทนค่าประมาณ (โดยทั่วไปจะเป็นสถิติสรุป เช่น ค่าเฉลี่ยตัวอย่าง เป็นต้น) ในขณะที่ฟังก์ชันเบย์เซียนจะส่งกลับค่าความน่าจะเป็น

ตัดตอนมาจากหนังสือ “Probabilistic Programming & Bayesian Methods for Hackers

สิ่งที่ไม่ถูกต้องนักคือการอ้างว่าฝ่ายหนึ่งให้ผลลัพธ์เชิงปฏิบัติมากกว่าอีกฝ่ายหนึ่ง

ที่สำคัญ Takeaway

สถิติแบบเบย์ในการทดสอบ A/B ประกอบด้วย 4 ขั้นตอนที่แตกต่างกัน:

  1. ระบุการแจกจ่ายก่อนหน้าของคุณ
  2. เลือกแบบจำลองทางสถิติที่สะท้อนความเชื่อของคุณ
  3. ทำการทดลอง
  4. ใช้ผลลัพธ์เพื่ออัปเดตความเชื่อของคุณและคำนวณการแจกแจงหลัง

ผลลัพธ์ของคุณจะนำคุณไปสู่ความน่าจะเป็นเชิงลึก ดังนั้นคุณจะรู้ว่าตัวแปรใดมีความเป็นไปได้สูงที่สุดที่จะดีที่สุด การสูญเสียที่คาดหวัง และการเพิ่มขึ้นที่คาดหวังของคุณ

เครื่องมือทดสอบ A/B ส่วนใหญ่จะตีความข้อมูลเหล่านี้ให้คุณโดยใช้สถิติแบบเบย์ แต่ผู้ทดลองอย่างละเอียดจะทำการวิเคราะห์หลังการทดสอบเพื่อทำความเข้าใจผลลัพธ์เหล่านั้นให้ดีขึ้น

เนื่องจากคุณมาไกลถึงขนาดนี้ จึงมีข้อเท็จจริงสนุกๆ สำหรับคุณ: คุณรู้จักภาพเหมือนของ Thomas Bayes ที่ทุกคนคุ้นเคยไหม อันนี้:

ภาพเหมือนของโทมัส เบย์
ภาพเหมือนของ Thomas Bayes (ที่มา)

ไม่มีใครแน่ใจ 100% ว่าเป็นเขา

CRO Master
CRO Master