วิธีลดมลพิษจากขนาดตัวอย่างเพื่อผลการทดสอบ A/B ที่แม่นยำ
เผยแพร่แล้ว: 2020-08-08คุณใช้เวลาหลายชั่วโมงในการวางแผนการทดสอบของคุณ
ทีมของคุณสร้างสมมติฐาน
คุณเรียกใช้การทดสอบและรอผล
แต่คุณพบว่าการทดสอบของคุณล้มเหลว ผลลัพธ์ได้รับการปนเปื้อน แต่อย่างไร?
อย่าตีตัวเองขึ้น มีความลับเล็ก ๆ น้อย ๆ สกปรกในโลกการทดสอบที่เรียกว่า มลพิษขนาดตัวอย่าง
มลพิษของผู้ชมกลุ่มตัวอย่างของคุณอาจทำให้การทดสอบสิ้นสุดลงโดยไม่รู้ตัวก่อนที่จะเริ่มด้วยซ้ำ
มีสาเหตุที่เป็นไปได้มากมายในการทดสอบที่ล้มเหลว แต่สิ่งหนึ่งที่น่าผิดหวังที่สุดคือมลพิษจากขนาดตัวอย่าง
บทความนี้จะช่วยให้คุณเข้าใจ:
- เหตุใดจึงเกิดมลพิษขนาดตัวอย่าง
- จะทราบได้อย่างไรว่าการทดสอบของคุณมีมลพิษ
- ขั้นตอนที่ต้องดำเนินการเพื่อลดมลพิษจากขนาดตัวอย่างไม่ให้เกิดขึ้น
มาดูกัน…
ขนาดตัวอย่าง 101
คำจำกัดความของขนาดตัวอย่าง
คุณสามารถใช้เครื่องมือต่างๆ เช่น เครื่องคำนวณระยะเวลาการทดสอบ A/B ของ Convert ซึ่งมีเครื่องคำนวณขนาดตัวอย่างหรือเครื่องคำนวณขนาดตัวอย่าง CXL
เครื่องคิดเลขออนไลน์ส่วนใหญ่ใช้งานง่าย ด้วยเครื่องคิดเลขของ Convert คุณจะต้องเสียบค่าสามค่าเท่านั้น:
- อัตราการแปลงที่มีอยู่
- การปรับปรุงที่คาดหวัง
- ระดับความเชื่อมั่น
ตัวอย่าง:
หากอัตรา Conversion ที่มีอยู่คือ 3% และการปรับปรุงที่คาดหวังคือ 20% ขณะทดสอบรูปแบบสองรูปแบบที่ระดับความเชื่อมั่น 95% คุณจะต้องใช้ขนาดกลุ่มตัวอย่าง 42,034 เพื่อให้ได้ผลลัพธ์ที่มั่นใจ ที่ผู้เข้าชมกลุ่มทดสอบนี้ 2,000 รายต่อวัน จะใช้เวลา 22 วันตามเครื่องคำนวณระยะเวลาของเรา
กำหนดว่าใครจะอยู่ในกลุ่มตัวอย่างของคุณ
วิธีที่ง่ายที่สุดในการตอบคำถามนี้ของ "ใคร" หรือกลุ่มโดยการตรวจสอบข้อมูลประชากรและแหล่งที่มาของผู้เยี่ยมชมเว็บไซต์ปัจจุบันของคุณ แตะที่ข้อมูลที่มีอยู่เพื่อหาเบาะแส พวกเขาเป็นใคร? พวกเขามาจากไหน?
เครื่องมืออย่าง Conversion Experiments ช่วยให้คุณสามารถทดสอบโดยใช้กลุ่มเฉพาะของผู้เยี่ยมชมเว็บไซต์ของคุณและสร้างผู้ชมที่กำหนดเองได้
ปัจจัยหลายประการสามารถช่วยให้คุณเปิดเผย 'ใคร':
- ประเภทของการจราจร
คุณได้รับการเข้าชมตามฤดูกาลหรือไม่ คุณคาดหวังว่าผู้เข้าชมจะหลั่งไหลเข้ามาในช่วงวันหยุดที่กำลังจะมาถึงหรือไม่? จำนวนการเข้าชมของคุณผันผวนตามวันในสัปดาห์หรือไม่ - แหล่งที่มาของการเข้าชม
การเข้าชมของคุณมาจากไหน? ผู้คนมีพฤติกรรมแตกต่างกันไปตามแหล่งที่มาที่พวกเขาเข้าสู่ไซต์ของคุณ ตัวอย่างเช่น ผู้เข้าชมจาก LinkedIn อาจไม่โต้ตอบกับไซต์ของคุณเหมือนกับผู้ที่มาจาก Facebook
ตรวจสอบ Google Analytics เพื่อดูภาพรวมของการมีส่วนร่วมของผู้เข้าชมตามแหล่งที่มา
- ใหม่กับเก่า
สถิติแสดงให้เห็นว่าผู้เข้าชมที่กลับมาจะอยู่บนไซต์ของคุณนานกว่าผู้เข้าชมใหม่ คิดว่าสิ่งนี้จะส่งผลต่อการทดสอบของคุณอย่างไร
เป้าหมายของขั้นตอนการพิจารณานี้คือช่วยคุณสร้าง ตัวอย่างที่เป็นตัวแทน
สารานุกรมวิธีการวิจัยแบบสำรวจกำหนดตัวอย่างที่เป็นตัวแทนดังนี้:
ตัวอย่างที่เป็นตัวแทนคือตัวอย่างที่มีความถูกต้องภายนอกที่แข็งแกร่งในความสัมพันธ์กับประชากรเป้าหมายที่กลุ่มตัวอย่างมีไว้เพื่อเป็นตัวแทน ดังนั้น ข้อค้นพบจากการสำรวจจึงสามารถสรุปประเด็นทั่วไปกับประชากรที่สนใจได้อย่างมั่นใจ
เพื่อให้แน่ใจว่าคุณมีตัวอย่างที่เป็นตัวแทน Convert แนะนำให้ทำการทดสอบอย่างน้อยหนึ่งรอบธุรกิจ เพื่อให้แน่ใจว่าการทดสอบของคุณมีเวลาที่จะพิจารณาความแปรปรวนของผู้เยี่ยมชมที่อาจเกิดขึ้นภายในรอบ
ขนาดตัวอย่างมลพิษคืออะไร?
เมื่อคุณเข้าใจแล้วว่าขนาดกลุ่มตัวอย่างคืออะไร คุณสามารถสำรวจปัจจัยที่อาจทำให้ขนาดตัวอย่างของคุณเสียหาย และทำให้การทดสอบของคุณผิดพลาด นี่คือวิธีที่ขนาดตัวอย่างส่งผลต่อความถูกต้อง ปัจจัยด้านขนาดตัวอย่างที่ส่งผลเสียต่อผลการทดสอบเรียกว่ามลพิษจากขนาดตัวอย่าง
Invespcro กำหนดตัวอย่างมลพิษดังนี้:
“…ปัจจัยที่ทำให้ข้อมูลการทดสอบ A/B ของคุณไม่ถูกต้องโดยมีอิทธิพลต่อตัวอย่างหรือข้อมูลที่ใช้ขณะทำการทดสอบของคุณ”
ปัญหานี้เป็นเรื่องปกติมากขึ้น ดูการร้องเรียนนี้:
ตัวอย่างลำเอียง
ในกรณีส่วนใหญ่ คุณต้องการสุ่มตัวอย่าง ซึ่งหมายความว่าผู้เยี่ยมชมเว็บไซต์ของคุณแต่ละคนมีโอกาสเท่ากันที่จะเห็นรูปแบบเฉพาะก่อนที่จะเข้าสู่กลุ่ม เมื่อใส่ลงในถังแล้ว ผู้ใช้จะเห็นรูปแบบเดียวกันตลอดระยะเวลาของการทดสอบ
อย่างไรก็ตาม หากคุณใช้เครื่องมือทดสอบ A/B ที่ทำการสุ่มได้ไม่ดี การสุ่มจะไม่รับประกันและอาจทำให้การทดสอบเป็นโมฆะได้
วิธีง่ายๆ ในการต่อสู้กับการสุ่มตัวอย่างแบบมีอคติคือการใช้เครื่องมือทดสอบ A/B ที่ดี เช่น Conversion ที่ทำการสุ่มและฝากข้อมูลอย่างถูกต้อง เริ่มการทดสอบของคุณด้วยการทดสอบ A/A เพื่อตรวจสอบว่าการสุ่มทำงานอย่างถูกต้องหรือไม่
คุณต้องการตระหนักถึงศักยภาพของอคติตัวอย่างเมื่อคุณกำลังพิจารณารายละเอียดของการทดสอบของคุณ
แหล่งที่มาที่ทำให้เกิดมลพิษขนาดตัวอย่าง
ตัวอย่างมลพิษทั่วไปมีสี่ประเภท ได้แก่ เวลา อุปกรณ์ เบราว์เซอร์ และคุกกี้
มาดูกันเลยละกัน…
เวลา
ความยาวของการทดสอบมีผลต่อความถูกต้องของผลลัพธ์ จึงไม่น่าแปลกใจที่คำถามทั่วไปคือ "ฉันควรใช้การทดสอบ A/B นานแค่ไหน"
ผู้เชี่ยวชาญ CRO มีแนวคิดที่ขัดแย้งกันเกี่ยวกับเกณฑ์มาตรฐานที่ยอมรับได้ อันที่จริง ตัวแปรทดสอบของคุณควรกำหนดระยะเวลาในการทดสอบของคุณอย่างเหมาะสม
วิธีแก้ปัญหาที่ตรงไปตรงมาอาจดูเหมือนเป็นการอนุญาตให้การทดสอบของคุณรันและรันและรัน แต่สิ่งนี้ก็อาจทำให้เกิดปัญหาได้เช่นกัน เวลาที่เพิ่มขึ้นหมายถึงการเพิ่มขึ้นของมลพิษที่อาจเกิดขึ้นจากปัจจัยภายนอก
คุณต้องการค้นหาจุดหวาน
ข้อผิดพลาดทั่วไปอีกประการหนึ่งเกี่ยวกับระยะเวลาของการทดสอบคือการหยุดการทดสอบเร็วเกินไป สิ่งนี้อาจไม่ทำให้เกิดมลพิษตามขนาดกลุ่มตัวอย่าง แต่อาจส่งผลเสียต่อการทดสอบของคุณ
เช่นเดียวกับถ้าคุณหยุดการทดสอบเมื่อคุณมีนัยสำคัญทางสถิติ สำหรับการทดสอบที่ถูกต้อง ควรมีขนาดตัวอย่างที่คำนวณไว้สำหรับ MDE ที่คุณต้องการ (Minimum Detectable Effect)
ในทำนองเดียวกัน อย่าหยุดการทดสอบแบบต่างๆ ซึ่งจะทำให้เกิด มลพิษร้ายแรง คุณจะไม่สามารถเปรียบเทียบตัวแปร "หยุด" กับตัวควบคุม "ทำงานตลอดเวลา" ได้ คุณจะไม่มีทางเปรียบเทียบ "แอปเปิ้ลกับแอปเปิ้ล" ไม่เคยหยุดและรีสตาร์ทตัวแปรในการทดสอบในภายหลัง
อย่าขัดจังหวะการทดสอบของคุณจนกว่าข้อมูลจะสอดคล้องกันสำหรับจำนวนขนาดตัวอย่าง
มลพิษของคุกกี้
คุกกี้อาจทำให้เกิดมลพิษจากขนาดตัวอย่างในรูปแบบที่ร้ายกาจที่สุด
ตามคำจำกัดความของ techopedia คุกกี้คือ:
คุกกี้คือไฟล์ข้อความที่เว็บเบราว์เซอร์จัดเก็บไว้ในเครื่องของผู้ใช้ คุกกี้เป็นวิธีหนึ่งสำหรับเว็บแอปพลิเคชันในการรักษาสถานะแอปพลิเคชัน ข้อมูลเหล่านี้ถูกใช้โดยเว็บไซต์สำหรับการรับรองความถูกต้อง จัดเก็บข้อมูลเว็บไซต์/การตั้งค่า ข้อมูลการท่องเว็บอื่นๆ และสิ่งอื่นใดที่สามารถช่วยเว็บเบราว์เซอร์ขณะเข้าถึงเว็บเซิร์ฟเวอร์ได้ คุกกี้ HTTP เป็นที่รู้จักจากชื่อต่างๆ มากมาย รวมถึงคุกกี้ของเบราว์เซอร์ คุกกี้ของเว็บ หรือคุกกี้ HTTP
ในฐานะนักการตลาด คุกกี้ช่วยให้คุณติดตามพฤติกรรมของผู้เยี่ยมชมบนไซต์ของคุณได้
อายุการใช้งานของคุกกี้มีความผันผวน ผู้เข้าชมสามารถลบออกได้ตามต้องการ
ยิ่งการทดสอบของคุณทำงานนานเท่าไหร่ คุณก็ยิ่งเสี่ยงที่จะถูกลบคุกกี้ – ซึ่งนำไปสู่มลพิษขนาดตัวอย่างรูปแบบอื่นอีกครั้ง เพื่อลดปรากฏการณ์นี้ Convert แนะนำให้ลูกค้าทำการทดสอบไม่เกิน 90 วัน
มลพิษของอุปกรณ์
ผู้เยี่ยมชมเข้าชมไซต์ของคุณจากอุปกรณ์หลายเครื่อง: มือถือ แล็ปท็อป แท็บเล็ต เดสก์ท็อป และแม้แต่สมาร์ทวอทช์
แค่นึกถึงพฤติกรรมการท่องเว็บของคุณ คุณอาจพบบางสิ่งบนอุปกรณ์มือถือของคุณขณะอยู่ที่ยิม ต่อมาในวันนั้น คุณอาจกลับมาเยี่ยมชมเว็บไซต์อีกครั้งบนคอมพิวเตอร์เดสก์ท็อปของคุณ
หากสิ่งนี้เกิดขึ้นในขอบเขตของการทดสอบ A/B ของคุณ อาจดูเหมือนว่ามีคนสองคนเข้าเยี่ยมชมเว็บไซต์ของคุณ โดยที่จริงแล้วเป็นบุคคลเดียวกันที่เรียกดูจากอุปกรณ์สองเครื่องที่ต่างกัน
อันตรายยิ่งกว่าสำหรับความพยายามในการทดสอบของคุณคือบุคคลคนเดียวกันนี้อาจเห็นความแตกต่างกันในแต่ละอุปกรณ์
มีตัวอย่างผกผันของเรื่องนี้ จะเกิดอะไรขึ้นเมื่อคนสองคนใช้อุปกรณ์เครื่องเดียวกันเพื่อเข้าชมเว็บไซต์ของคุณ
ลองนึกภาพพี่น้องสองคนอาศัยอยู่ในบ้านหลังเดียวกัน พวกเขาใช้คอมพิวเตอร์เดสก์ท็อปร่วมกัน ทั้งคู่กำลังเตรียมตัวสำหรับวันหยุดและต้องสั่งเสื้อยืดและรองเท้าใหม่ หากการทดสอบ A/B ทำงานบนไซต์อีคอมเมิร์ซในขณะที่เข้าชม ข้อมูลจะแสดงคนสองคนนี้เป็นผู้ใช้คนเดียวอีกครั้ง ทำให้ขนาดตัวอย่างของคุณเสียหาย
มลพิษของเบราว์เซอร์
เมื่อคนทั่วไปเข้าสู่โลกออนไลน์ พวกเขาไม่พิจารณาถึงการแตกสาขาโดยใช้เบราว์เซอร์ต่างๆ เพื่อเข้าชมเว็บไซต์เดียวกันในการทดสอบ A/B แต่การไปที่เว็บไซต์เดียวกันจากเบราว์เซอร์หนึ่งไปยังอีกเบราว์เซอร์หนึ่ง เช่น Safari และ Chrome อาจทำให้เกิดมลพิษขนาดตัวอย่างใกล้เคียงกันซึ่งเกิดขึ้นกับอุปกรณ์หลายเครื่อง
อย่างไรก็ตาม รูปแบบมลพิษเฉพาะนี้หาได้ยาก เนื่องจากคนส่วนใหญ่จะใช้เบราว์เซอร์ที่ต้องการเพียงตัวเดียวต่ออุปกรณ์
อันตรายใหม่
เบราว์เซอร์ ประเภทอุปกรณ์ คุกกี้ และระยะเวลาในการทดสอบเป็นสารมลพิษตามขนาดตัวอย่างที่พบบ่อยที่สุด แต่ดูเหมือนว่ามลพิษใหม่กำลังเข้าสู่การสนทนา ผู้เชี่ยวชาญด้านอุตสาหกรรมกำลังบ่นเกี่ยวกับบอทที่สร้างมลพิษตามขนาดตัวอย่าง
โชคดีที่ Convert เรามีมาตรการบรรเทาบอทที่แข็งแกร่งซึ่งฝังอยู่ในเครื่องมือของเรา เพื่อไม่ให้เกิดปัญหา
เคล็ดลับในการลดมลพิษจากขนาดตัวอย่าง
เนื่องจากมลพิษจากขนาดตัวอย่างเป็นปัญหาใหญ่ หลายบริษัทจึงคิดหาวิธีแก้ไขอย่างสร้างสรรค์ เช่น การนำผู้ใช้ไปไว้ในบัคเก็ตต่างๆ ตามสถานที่
แต่กลวิธีดังกล่าวสามารถตัดการทดสอบ "การสุ่มของผู้ใช้" และสามารถลดความมั่นใจของคุณว่าผลการทดสอบนั้นถูกต้อง
ด้านล่างนี้คือบางสิ่งที่คุณสามารถทำได้เพื่อลดโอกาสที่ตัวอย่างจะเกิดมลพิษ:
- เรียกใช้การทดสอบสำหรับอุปกรณ์แยกต่างหาก
- เรียกใช้การทดสอบสำหรับเบราว์เซอร์ที่แยกจากกัน
- ระบุรูปแบบ ข้อมูลของคุณเป็นอย่างไรในอดีต? ระหว่างการทดสอบควรมีความคล้ายคลึงกัน – ความสอดคล้องของข้อมูล
นี่คือสิ่งที่ควรพิจารณาเพิ่มเติม…
เข้าใจความแปรปรวน
ความแปรปรวนและค่าเบี่ยงเบนมาตรฐานเป็นของคู่กันด้วยความสม่ำเสมอ โดยพื้นฐานแล้วพวกเขาจะบอกคุณว่าตัวเลขของคุณอยู่ไกลจากค่าเฉลี่ยแค่ไหน ความแปรปรวนต่ำหมายความว่าข้อมูลของคุณสอดคล้องกับค่าเฉลี่ย ซึ่งทำให้คุณมีความเสี่ยงที่จะเกิดมลพิษน้อยลง
คุณสามารถคำนวณด้วยมือของคุณเองหรือใช้เครื่องคำนวณส่วนเบี่ยงเบนมาตรฐานอย่างง่าย
ระวังปัญหาการสุ่มตัวอย่างที่อาจเกิดขึ้น
มีปัญหาโดยธรรมชาติกับการทดสอบ A/B รวมถึงความเป็นไปได้ของมลพิษจากขนาดกลุ่มตัวอย่าง
ความรู้เกี่ยวกับปัญหาขนาดตัวอย่างที่อาจเป็นไปได้ช่วยให้คุณตัดสินใจได้ดีขึ้นเมื่อคุณเลือกเป้าหมายการทดสอบ สร้างการรักษา และดำเนินการทดลอง
ตอนนี้คุณสามารถเอาชนะตัวอย่างมลพิษ
แนวทางปฏิบัติในการทดสอบที่ดีหมายความว่าคุณเริ่มโครงการด้วยความเข้าใจอย่างถ่องแท้ถึงสิ่งที่อาจผิดพลาดได้
มลพิษจากขนาดตัวอย่างเป็นผลพลอยได้เชิงลบที่เกิดขึ้นเมื่อคุณเรียกใช้การทดสอบ A/B งานของคุณคือลดผลกระทบเชิงลบเหล่านี้ให้มากที่สุด เพื่อให้คุณผ่านการทดสอบที่ประสบความสำเร็จ
โปรดจำไว้ว่า การบรรเทาผลกระทบจะเกิดขึ้นก่อนการทดสอบของคุณจะเริ่มขึ้น
ใช้เครื่องมือที่มีประสิทธิภาพ เช่น Convert ที่ให้คุณสามารถแบ่งการทดสอบ ต่อสู้กับบอทที่น่ารำคาญ ใช้เทคนิคการสุ่มที่ดี ทั้งหมดนี้อยู่ในแพลตฟอร์มง่ายๆ ที่รองรับการทดสอบที่ซับซ้อน
กลยุทธ์การทดลองและประสิทธิภาพของซอฟต์แวร์ของคุณจะสร้างความแตกต่างในการลดมลพิษของขนาดกลุ่มตัวอย่างได้ดีเพียงใด
เมื่อคุณทราบจุดบอดที่อาจเกิดขึ้นในการทดสอบของคุณแล้ว มันก็ไม่สามารถคืบคลานเข้ามาหาคุณได้