ความสำคัญทางสถิติการทดสอบ A/B: อย่างไรและเมื่อใดที่จะสิ้นสุดการทดสอบ

เผยแพร่แล้ว: 2020-05-22
ความสำคัญทางสถิติการทดสอบ A/B: อย่างไรและเมื่อใดที่จะสิ้นสุดการทดสอบ

ในการวิเคราะห์ล่าสุดของเราจากการทดสอบ 28,304 รายการที่ดำเนินการโดยลูกค้า Convert เราพบว่า มีเพียง 20% ของการทดสอบที่เข้าถึงระดับนัยสำคัญทางสถิติ 95% Econsultancy ค้นพบแนวโน้มที่คล้ายกันในรายงานการเพิ่มประสิทธิภาพปี 2018 สองในสามของผู้ตอบแบบสอบถามเห็นว่า "ผู้ชนะที่ชัดเจนและมีนัยสำคัญทางสถิติ" ในการทดลอง เพียง 30% หรือน้อยกว่า นั้น

ดังนั้นการทดลองส่วนใหญ่ (70-80%) จึงไม่สามารถสรุปผลได้หรือหยุดก่อนกำหนด

ในจำนวนนี้ ผู้ที่หยุดทำงานแต่เนิ่นๆ ทำให้เกิดกรณีที่น่าสงสัย เนื่องจากเครื่องมือเพิ่มประสิทธิภาพจะยุติการทดลองเมื่อเห็นว่าเหมาะสม พวกเขาทำเช่นนั้นเมื่อพวกเขาสามารถ "เห็น" ผู้ชนะที่ชัดเจน (หรือผู้แพ้) หรือการทดสอบที่ไม่มีนัยสำคัญอย่างชัดเจน โดยปกติพวกเขายังมีข้อมูลบางอย่างเพื่อพิสูจน์

แดชบอร์ดการรายงานข้อมูล
ที่มา: https://unsplash.com

สิ่งนี้อาจไม่น่าแปลกใจนัก เนื่องจาก 50% ของเครื่องมือเพิ่มประสิทธิภาพไม่มี "จุดหยุด" มาตรฐานสำหรับการทดสอบ สำหรับส่วนใหญ่ การทำเช่นนั้นเป็นสิ่งจำเป็น เนื่องจากแรงกดดันที่จะต้องรักษาความเร็วการทดสอบไว้ (การทดสอบ XXX ครั้ง/เดือน) และการแข่งขันเพื่อครองการแข่งขัน

นอกจากนี้ยังมีความเป็นไปได้ที่การทดสอบเชิงลบจะส่งผลเสียต่อรายได้ การวิจัยของเราแสดงให้เห็นว่า การทดสอบที่ไม่ชนะโดยเฉลี่ยสามารถทำให้อัตราการแปลงลดลง 26% !

ทั้งหมดกล่าวว่าการสิ้นสุดการทดลองก่อนกำหนดยังคงมีความเสี่ยง...

… เนื่องจากปล่อยให้ความน่าจะเป็นที่การทดลองใช้ความยาวตามที่ต้องการ ขับเคลื่อนโดยขนาดตัวอย่างที่ถูกต้อง ผลลัพธ์ของการทดลองจึงอาจแตกต่างออกไป

แล้วทีมที่ยุติการทดลองก่อนกำหนดจะรู้ได้อย่างไรว่าถึงเวลาต้องยุติการทดลองเหล่านี้ ส่วนใหญ่ คำตอบอยู่ที่การคิดค้นกฎการหยุดที่เร่งการตัดสินใจโดยไม่ลดทอนคุณภาพ

ย้ายออกจากกฎการหยุดแบบเดิม

สำหรับการทดลองบนเว็บ ค่า p 0.05 ทำหน้าที่เป็นมาตรฐาน ความทนทานต่อข้อผิดพลาด 5 เปอร์เซ็นต์หรือระดับนัยสำคัญทางสถิติ 95% ช่วยให้ผู้เพิ่มประสิทธิภาพรักษาความสมบูรณ์ของการทดสอบ พวกเขาสามารถมั่นใจได้ว่าผลลัพธ์เป็นผลลัพธ์จริงและไม่ใช่ความบังเอิญ

ในแบบจำลองทางสถิติแบบดั้งเดิมสำหรับการทดสอบขอบฟ้าคงที่ ซึ่งข้อมูลการทดสอบได้รับการประเมินเพียงครั้งเดียวในเวลาที่กำหนดหรือตามจำนวนผู้ใช้ที่มีส่วนร่วมโดยเฉพาะ คุณจะยอมรับผลลัพธ์ที่มีนัยสำคัญเมื่อคุณมีค่า p ต่ำกว่า 0.05 ณ จุดนี้ คุณสามารถปฏิเสธสมมติฐานว่างว่าการควบคุมและการรักษาของคุณเหมือนกัน และผลลัพธ์ที่สังเกตได้ไม่ได้เกิดขึ้นโดยบังเอิญ

ไม่เหมือนแบบจำลองทางสถิติที่ให้ข้อกำหนดในการประเมินข้อมูลของคุณในขณะที่กำลังรวบรวม รูปแบบการทดสอบดังกล่าวห้ามไม่ให้คุณดูข้อมูลการทดสอบของคุณในขณะที่ทำงาน แนวปฏิบัตินี้หรือที่เรียกว่าการแอบมอง ไม่สนับสนุนในแบบจำลองดังกล่าว เนื่องจากค่า p ผันผวนเกือบทุกวัน คุณจะเห็นว่าการทดสอบจะมีนัยสำคัญในวันหนึ่งและวันถัดไป ค่า p ของการทดสอบจะเพิ่มขึ้นจนถึงจุดที่ไม่สำคัญอีกต่อไป

นัยสำคัญทางสถิติที่ผันผวน
ที่มา: Varianceexplained.org

การจำลองค่า p ที่วางแผนไว้สำหรับการทดลองหนึ่งร้อย (20 วัน) การทดลองเพียง 5 ครั้งเท่านั้นที่จบลงด้วยความสำคัญที่เครื่องหมาย 20 วัน ในขณะที่การทดลองหลายครั้งก็ถึงระดับ <0.05 ในระหว่างนี้

การดูการทดลองของคุณในระหว่างนั้นสามารถแสดงผลที่ไม่มีอยู่จริง ตัวอย่างเช่น ด้านล่างคุณมีการทดสอบ A/A โดยใช้ระดับนัยสำคัญที่ 0.1 เนื่องจากเป็นการทดสอบ A/A จึงไม่มีความแตกต่างระหว่างกลุ่มควบคุมและการรักษา อย่างไรก็ตาม หลังจากการสังเกต 500 ครั้งระหว่างการทดลองที่ดำเนินอยู่ มีโอกาสมากกว่า 50% ที่จะสรุปว่าสิ่งเหล่านี้แตกต่างกัน และสามารถปฏิเสธสมมติฐานว่างได้:

การสังเกตการทดสอบ A/A
ที่มา: CodeCraft

นี่เป็นอีกหนึ่งการทดสอบ A/A ที่ใช้เวลา 30 วัน โดยที่ค่า p ลดลงไปยังโซนนัยสำคัญหลาย ๆ ครั้งในระหว่างนี้เท่านั้น ในที่สุดก็จะมากกว่าจุดตัด:

ค่านิยมชั่วคราวลดลง
ที่มา: บทความเกี่ยวกับ Medium

การรายงานค่า p จากการทดสอบในขอบฟ้าคงที่อย่างถูกต้องหมายความว่าคุณต้องยอมรับล่วงหน้ากับขนาดตัวอย่างคงที่หรือระยะเวลาการทดสอบ บางทีมยังเพิ่มจำนวน Conversion ให้กับเกณฑ์การหยุดการทดสอบนี้และระยะเวลาที่ตั้งใจไว้

อย่างไรก็ตาม ปัญหาในที่นี้คือ การมีปริมาณการใช้งานทดสอบมากพอที่จะเติมเชื้อเพลิงให้กับการทดสอบแต่ละครั้ง เพื่อการหยุดที่เหมาะสมที่สุดโดยใช้แนวทางปฏิบัติมาตรฐานนี้เป็นเรื่องยากสำหรับเว็บไซต์ส่วนใหญ่

ต่อไปนี้คือจุดที่ใช้วิธีการทดสอบตามลำดับซึ่งสนับสนุนกฎการหยุดที่ไม่บังคับ

ก้าวไปสู่กฎการหยุดที่ยืดหยุ่นซึ่งช่วยให้ตัดสินใจได้เร็วขึ้น

วิธีการทดสอบตามลำดับช่วยให้คุณใช้ประโยชน์จากข้อมูลการทดสอบของคุณตามที่ปรากฏ และใช้แบบจำลองนัยสำคัญทางสถิติของคุณเองเพื่อค้นหาผู้ชนะได้เร็วยิ่งขึ้นด้วยกฎการหยุดที่ยืดหยุ่น

ทีมเพิ่มประสิทธิภาพที่มีวุฒิภาวะ CRO สูงสุดมักจะคิดค้นวิธีการทางสถิติของตนเองเพื่อสนับสนุนการทดสอบดังกล่าว เครื่องมือทดสอบ A/B บางตัวก็มีคุณลักษณะนี้เช่นกัน และสามารถแนะนำได้ว่าเวอร์ชันใดน่าจะชนะ และบางส่วนให้คุณควบคุมวิธีคำนวณนัยสำคัญทางสถิติของคุณได้อย่างเต็มที่ ด้วยค่าที่กำหนดเองและอื่นๆ ดังนั้นคุณจึงสามารถแอบดูผู้ชนะได้แม้ในการทดสอบที่กำลังดำเนินอยู่

นักสถิติ ผู้เขียน และผู้สอนของหลักสูตร CXL ยอดนิยมเกี่ยวกับสถิติการทดสอบ A/B Georgi Georgiev มีไว้สำหรับวิธีการทดสอบตามลำดับที่ช่วยให้มีความยืดหยุ่นในจำนวนและระยะเวลาของการวิเคราะห์ระหว่างกาล:

การทดสอบตามลำดับช่วยให้คุณเพิ่มผลกำไรสูงสุดโดยการปรับใช้ตัวแปรที่ชนะตั้งแต่เนิ่นๆ รวมถึงการหยุดการทดสอบที่มีโอกาสเพียงเล็กน้อยที่จะได้ผู้ชนะโดยเร็วที่สุด ตัวหลังช่วยลดการสูญเสียเนื่องจากตัวแปรที่ด้อยกว่าและเพิ่มความเร็วในการทดสอบเมื่อตัวแปรนั้นไม่น่าจะมีประสิทธิภาพเหนือกว่าการควบคุม มีการรักษาความเข้มงวดทางสถิติในทุกกรณี

Georgiev ได้ทำงานเกี่ยวกับเครื่องคิดเลขที่ช่วยให้ทีมละทิ้งแบบจำลองการทดสอบตัวอย่างแบบตายตัวสำหรับแบบจำลองที่สามารถตรวจจับผู้ชนะได้ในขณะที่การทดสอบยังดำเนินการอยู่ โมเดลของเขาพิจารณาสถิติจำนวนมาก และช่วยให้คุณเรียกการทดสอบได้เร็วกว่าการคำนวณนัยสำคัญทางสถิติมาตรฐานประมาณ 20-80% โดยไม่ทำให้คุณภาพลดลง

การวิเคราะห์ระหว่างกาลผู้ชนะที่มีนัยสำคัญทางสถิติ
ที่มา: Analytics Toolkit

การทดสอบ A/B แบบปรับเปลี่ยนได้แสดงผู้ชนะที่มีนัยสำคัญทางสถิติที่เกณฑ์นัยสำคัญที่กำหนดหลังจากการวิเคราะห์ระหว่างกาลครั้งที่ 8

แม้ว่าการทดสอบดังกล่าวสามารถเร่งกระบวนการตัดสินใจของคุณได้ แต่ก็มีประเด็นสำคัญอย่างหนึ่งที่ต้องแก้ไข นั่นคือ ผลกระทบที่แท้จริงของการทดสอบ การสิ้นสุดการทดสอบระหว่างกาลอาจทำให้คุณประเมินค่าสูงไป

การดูค่าประมาณที่ไม่ได้ปรับสำหรับขนาดเอฟเฟกต์อาจเป็นอันตรายได้ Georgiev เตือน เพื่อหลีกเลี่ยงปัญหานี้ แบบจำลองของเขาใช้วิธีการต่างๆ เพื่อใช้การปรับเปลี่ยนที่คำนึงถึงอคติที่เกิดขึ้นเนื่องจากการตรวจสอบระหว่างกาล เขาอธิบายว่าการวิเคราะห์ที่คล่องตัวของพวกเขาปรับการประมาณการอย่างไร “ขึ้นอยู่กับระยะการหยุดและค่าที่สังเกตได้ของสถิติ (โอเวอร์ชูต หากมี)” ด้านล่างนี้ คุณสามารถดูการวิเคราะห์สำหรับการทดสอบข้างต้น: (สังเกตว่าการยกโดยประมาณนั้นต่ำกว่าที่สังเกตได้อย่างไร และช่วงเวลาไม่อยู่ตรงกลางรอบ ๆ ตัว)

สถิติการวิเคราะห์เปรียว

ดังนั้นการชนะอาจไม่ใหญ่เท่าที่ควรจากการทดสอบที่สั้นกว่าที่คุณตั้งใจไว้

การสูญเสียนั้นจำเป็นต้องคำนึงถึงด้วย เพราะคุณอาจจะยังลงเอยด้วยการเรียกผู้ชนะอย่างผิดพลาดเร็วเกินไป แต่ความเสี่ยงนี้ยังคงมีอยู่แม้ในการทดสอบขอบฟ้าคงที่ อย่างไรก็ตาม ความถูกต้องภายนอกอาจเป็นข้อกังวลมากกว่าเมื่อเรียกใช้การทดสอบตั้งแต่เนิ่นๆ เมื่อเทียบกับการทดสอบขอบฟ้าคงที่ที่ใช้เวลานานกว่า แต่นี่เป็นอย่างที่ Georgiev อธิบาย " ผลที่ตามมาง่ายๆ ของขนาดกลุ่มตัวอย่างที่เล็กกว่าและด้วยเหตุนี้ระยะเวลาการทดสอบ

สุดท้าย… มันไม่เกี่ยวกับผู้ชนะหรือผู้แพ้…

… แต่เกี่ยวกับการตัดสินใจทางธุรกิจที่ดีขึ้น อย่างที่ Chris Stucchio กล่าว

หรืออย่างที่ Tom Redman (ผู้เขียน Data Driven: Profiting from Your Mostที่สำคัญที่สุดธุรกิจทรัพย์สินของคุณ) ยืนยันว่าในธุรกิจ: “ มักจะมีเกณฑ์ที่สำคัญมากกว่าที่มีนัยสำคัญทางสถิติ คำถามสำคัญคือ “ ผลลัพธ์จะยืนยงในตลาดหรือไม่ หากเพียงช่วงเวลาสั้นๆ เท่านั้น?

และเป็นไปได้มากที่สุด ไม่ใช่เพียงช่วงเวลาสั้นๆ เท่านั้น Georgiev กล่าว " ถ้ามันมีความสำคัญทางสถิติและการพิจารณาความถูกต้องภายนอกได้รับการแก้ไขในลักษณะที่น่าพอใจในขั้นตอนการออกแบบ"

สาระสำคัญทั้งหมดของการทดลองคือการช่วยให้ทีมตัดสินใจอย่างมีข้อมูลมากขึ้น ดังนั้น หากคุณสามารถส่งต่อผลลัพธ์ — ที่ข้อมูลการทดสอบของคุณชี้ไป — ไม่ช้าก็เร็ว ทำไมล่ะ

อาจเป็นการทดลอง UI เล็กๆ ที่คุณไม่สามารถหาขนาดตัวอย่างที่ “เพียงพอ” ได้ อาจเป็นการทดลองที่ผู้ท้าชิงของคุณบดขยี้ต้นฉบับและคุณสามารถเดิมพันได้!

ดังที่ Jeff Bezos เขียนในจดหมายถึงผู้ถือหุ้นของ Amazon การทดลองครั้งใหญ่ต้องจ่ายเงินครั้งใหญ่:

ให้โอกาสสิบเปอร์เซ็นต์ของผลตอบแทน 100 เท่า คุณควรเดิมพันครั้งนั้นทุกครั้ง แต่คุณยังคงทำผิดเก้าในสิบครั้ง เราทุกคนรู้ดีว่าถ้าคุณแกว่งไปที่รั้ว คุณจะตีออกมาก แต่คุณจะตีโฮมรันด้วย ความแตกต่างระหว่างเบสบอลและธุรกิจคือเบสบอลมีการกระจายผลลัพธ์ที่ถูกตัดทอน เมื่อคุณสวิง ไม่ว่าคุณจะเชื่อมต่อกับลูกบอลได้ดีแค่ไหน การวิ่งมากที่สุดที่คุณจะได้รับคือสี่ ในการทำธุรกิจ ทุกๆ ครั้งเมื่อคุณก้าวขึ้นสู่ตำแหน่ง คุณจะสามารถวิ่งได้ 1,000 รอบ การกระจายผลตอบแทนแบบหางยาวนี้เป็นเหตุผลว่าทำไมการกล้าแสดงออกจึงสำคัญ ผู้ชนะรายใหญ่จ่ายเงินสำหรับการทดลองมากมาย

การเรียกการทดลองแต่เนิ่นๆ ในระดับที่ดี เปรียบเสมือนการแอบดูผลลัพธ์ทุกวันและหยุดอยู่ที่จุดที่รับประกันการเดิมพันที่ดี

Google Analytics
Google Analytics