วิทยาศาสตร์ข้อมูลเชิงธุรกิจ
เผยแพร่แล้ว: 2018-12-13พวกเขากล่าวว่า Data Scientist เป็นงานที่เซ็กซี่ที่สุดในศตวรรษที่ 21 (และ Data Scientist ทั้งหมดที่ฉันพบในการประชุมต่างๆ ก็รู้ดี) แต่เมื่อพวกเขาพูดถึงเฉพาะส่วนทางทฤษฎีของแมชชีนเลิร์นนิง บางครั้งฉันก็สงสัยว่าพวกเขารู้หรือไม่ว่าทำไมงานของพวกเขาถึงร้อนแรง เหตุผลก็คือ Data Scientist รู้วิธีรวมข้อมูล ทักษะทางเทคนิค และความรู้ของสถิติเพื่อให้บรรลุเป้าหมายทางธุรกิจ ดังนั้น ในการทำ Data Science ให้ดี คุณต้องคิดถึงธุรกิจก่อน
ฉันรู้กรณีที่บริษัทต่างๆ ได้เพิ่มเครื่องมือวิเคราะห์เพื่อติดตามการสัมผัสของผู้ใช้ทุกคนโดยไม่ต้องคำนึงถึงสิ่งที่พวกเขาต้องการทำให้สำเร็จจริง ๆ พวกเขารวบรวมข้อมูลจำนวนมากที่พวกเขาไม่เข้าใจและไม่สามารถใช้เพื่อพัฒนาธุรกิจของตนได้
อย่าทำผิดพลาดเช่นนี้! นึกถึงวัตถุประสงค์และความจำเพาะของอุตสาหกรรมในแต่ละขั้นตอนของกระบวนการ Data Science ยิ่งคุณมีความคิดสร้างสรรค์มากเท่าไร โอกาสความสำเร็จของคุณก็จะยิ่งมากขึ้นเท่านั้น เพื่อเป็นการพิสูจน์ ฉันจะแสดงตัวอย่างที่น่าสนใจของ Data Science ในการใช้งานของยักษ์ใหญ่...
วิธีเริ่มต้นการผจญภัยวิทยาศาสตร์ข้อมูลของคุณ
คุณเคยได้ยินมาว่าหลายบริษัทใช้ ML เพื่อเพิ่มรายได้ แต่คุณไม่รู้ว่าจะเริ่มต้นอย่างไร เพื่อไม่ให้จบลงด้วยโครงสร้างพื้นฐานที่มีราคาแพงและข้อมูลที่ไม่ช่วยเหลือ (เพื่อตอบสนองความต้องการทางธุรกิจของคุณ) คุณควรเริ่มด้วยการให้คำตอบสำหรับคำถามต่อไปนี้:
เป้าหมายทางธุรกิจของลูกค้าคืออะไร? เราจะใช้ข้อมูลเพื่อให้บรรลุเป้าหมายได้อย่างไร
จากนั้นคุณสามารถเริ่มวางแผนว่าข้อมูลใดบ้างที่สามารถติดตามและใช้งาน
การรวบรวมข้อมูล
เราควรรวบรวมข้อมูลอะไร? คำตอบสำหรับคำถามนี้อาจทำให้คุณประหลาดใจ Todd Yellin (รองประธานฝ่ายนวัตกรรมผลิตภัณฑ์ของ Netflix) ได้กล่าว ไว้ว่าข้อมูลมีสองประเภทที่ สามารถใช้ได้: แบบชัดแจ้งและโดยปริยาย [1] ในกรณีของ Netflix ความชัดเจนคือเมื่อผู้ใช้ให้คะแนนภาพยนตร์ตามตัวอักษร ในทางกลับกัน เป็นข้อมูลเชิงพฤติกรรม โดยอิงจากการคลิกของผู้ใช้และการใช้งานแอป แบบไหนคุ้มกว่ากัน?
ไม่มีคำตอบสากลสำหรับคำถามนี้ แต่ ในกรณีส่วนใหญ่ ข้อมูลโดยนัยจะมีประโยชน์มากกว่า และนั่นเป็นเพราะว่า... ผู้คนโกหก
ลองพิจารณาตัวอย่างของผู้ชายที่บอกว่าเขารักสารคดีและให้คะแนน 5/5 แต่ตามข้อมูลที่แสดง เขาดูประเภทนี้ปีละครั้ง ในเวลาเดียวกัน เขาดูซีรีส์ยอดนิยมทุกเย็นวันศุกร์ และเป็นเพราะเขาเหนื่อยหลังเลิกงานและต้องการพักผ่อนบนโซฟา ดังนั้นควรใช้ข้อมูลใดในการเตรียมระบบคำแนะนำดังกล่าว: การให้คะแนนหรือพฤติกรรมของผู้ใช้
เพื่อตอบคำถามนี้ เราต้องคิดถึงเป้าหมายทางธุรกิจของการพัฒนา เป้าหมายของ Netflix คือการสนับสนุนให้ผู้ใช้รับชมภาพยนตร์มากขึ้น พวกเขาเริ่มต้นด้วยระบบการให้คะแนนระดับห้าดาวยอดนิยม เมื่อพวกเขาตระหนักว่ามีความเป็นไปได้มากกว่าที่ผู้ใช้ที่กล่าวถึงจะได้เห็น Friends แทนที่จะเป็นภาพยนตร์เกี่ยวกับสงครามโลกครั้งที่ 2 พวกเขาได้พัฒนาระบบคำแนะนำตามพฤติกรรมของผู้ใช้ พวกเขายังลดระดับห้าดาวและแทนที่ด้วยระบบยกนิ้วโป้งและยกนิ้วโป้งแบบไบนารีที่เรียบง่ายกว่า
ตามตัวอย่างนี้ ข้อมูลที่รวบรวมควรได้รับการคัดเลือกโดยคำนึงถึงความเฉพาะเจาะจงของอุตสาหกรรม และควรนำข้อมูลที่เพียงพอมาเพื่อทำความเข้าใจการตัดสินใจและความต้องการของผู้ใช้ แต่ที่นี่เราพบปัญหาอื่น: ข้อมูลพฤติกรรม ข้อความ และข้อมูลที่ไม่มีโครงสร้างอื่นๆ ยากต่อการวิเคราะห์และใช้ในแบบจำลองการเรียนรู้ของเครื่องมากกว่าแบบที่มีโครงสร้าง ตอนนี้ถึงเวลาที่จะพูดเกี่ยวกับวิศวกรรมคุณลักษณะ
วิศวกรรมคุณสมบัติ
เพื่อแสดงให้เห็นว่าวิศวกรรมคุณลักษณะใน Data Science มีความสำคัญเพียงใด ฉันต้องการอ้างอิง Andrew Ng – ผู้ร่วมก่อตั้ง Google Brain และผู้ก่อตั้ง deeplearning.ai:
การสร้างคุณสมบัติขึ้นมานั้นยาก ใช้เวลานาน และต้องใช้ความรู้จากผู้เชี่ยวชาญ แมชชีนเลิร์นนิงประยุกต์นั้นโดยทั่วไปแล้วจะเป็นวิศวกรรมคุณลักษณะ [2].
https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf
ตัวอย่างที่น่าสนใจของแนวทางการประมวลผลข้อมูลที่ขับเคลื่อนโดยจุดประสงค์คือ Booking.com ซึ่งผู้ใช้สามารถให้คะแนนโรงแรมได้ตั้งแต่ 0 ถึง 10 แต่ถ้าสัตว์ที่เลี้ยงสัตว์ให้คะแนนโรงแรมสูง จะเป็นทางเลือกที่ดีสำหรับครอบครัวที่มีเด็กหรือไม่ ไม่จำเป็น.

โชคดีที่ยังมีความคิดเห็นของผู้ใช้ซึ่งมีข้อมูลเพิ่มเติมที่เราต้องการ Booking.com ใช้การวิเคราะห์ความคิดเห็นและการสร้างแบบจำลองหัวข้อเพื่อดึงจุดแข็งและจุดอ่อนของโรงแรมที่แสดงความคิดเห็น และความชอบของผู้ใช้เกี่ยวกับที่พัก
ลองพิจารณาตัวอย่างนี้:

หัวข้อ สิ่งอำนวยความสะดวกในห้องพักมีอารมณ์เชิงลบ (ผู้ใช้บ่นเกี่ยวกับฝักบัว เตียง wifi และเครื่องปรับอากาศ) ในขณะเดียวกัน ผู้ใช้รายนี้ก็ชื่นชมความคุ้มค่าของราคาโรงแรม พนักงาน และอาหาร ระบบยังวิเคราะห์สิ่งที่ไม่ได้กล่าวถึงในความคิดเห็น ดังนั้นจึงอาจไม่มีความสำคัญสำหรับผู้ใช้ – ในตัวอย่างของเราอาจเป็นสถานบันเทิงยามค่ำคืน
ด้วยข้อมูลเชิงลึกเหล่านี้ แพลตฟอร์มสามารถนำเสนอโรงแรมที่เหมาะสมกว่าสำหรับผู้ใช้ที่มีโปรไฟล์คล้ายกัน ในกรณีนี้คือครอบครัวที่มีเด็กๆ กำลังมองหาสถานที่สำหรับพักผ่อนในโรงแรมที่เงียบสงบในราคาที่เหมาะสม ยิ่งไปกว่านั้น Booking.com ยังจัดเรียงความคิดเห็นเพื่อแสดงข้อมูลที่น่าสนใจที่สุดสำหรับผู้ดูที่ด้านบน
สิ่งนี้นำไปสู่สถานการณ์แบบ win-win: ผู้ใช้สามารถค้นหาข้อเสนอที่เหมาะกับความต้องการเฉพาะของพวกเขาได้รวดเร็วและง่ายดายยิ่งขึ้น และแพลตฟอร์มก็ทำกำไรได้เพราะข้อเสนอเหล่านี้เป็นข้อเสนอที่ผู้ใช้มีแนวโน้มที่จะซื้อมากกว่า

อยากรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล?
เรียนรู้เพิ่มเติมผลิตภัณฑ์ข้อมูล
คุณได้ปรับใช้ผลิตภัณฑ์ข้อมูลด้วยผลลัพธ์ที่น่าพอใจหรือไม่? ไม่ใช่เวลาที่จะพอใจ ตามตัวอย่างที่ Netflix แสดงให้เห็น [3] การทำงานอย่างต่อเนื่องในการปรับปรุงระบบสามารถนำมาซึ่งผลกำไรที่สำคัญ การแนะนำภาพยนตร์ที่เหมาะสมเพียงพอหรือไม่ เราจะทำอะไรได้อีก?
หนึ่งในแนวทางที่ใช้งานได้จริงของ Netflix ไม่เพียงแต่แนะนำภาพยนตร์เท่านั้น แต่ยังแสดงภาพเหล่านั้นด้วยภาพที่ดึงดูดใจผู้ใช้รายใดรายหนึ่งมากที่สุด สมมติว่าพวกเขาแนะนำคุณ Good Will Hunting หากคุณเคยดูละครโรแมนติกคอมมาหลายครั้งแล้ว คุณอาจเห็นภาพคู่รักจูบกัน แต่หากคุณเป็นแฟนตัวยง คุณก็มักจะได้ภาพนักแสดงตลกชื่อดังชาวอเมริกัน:

ด้วยวิธีนี้ ผู้ใช้ที่เลื่อนดูตัวเลือกมากมายมักจะพบภาพยนตร์ที่ดึงดูดความสนใจของพวกเขา
กลยุทธ์การแนะนำนี้และอื่น ๆ ให้ผลลัพธ์ที่น่าอัศจรรย์ – เนื้อหาของแพลตฟอร์มมากกว่า 80% อิงตามคำแนะนำอัลกอริทึม หมายความว่าผู้ใช้หมดสิ่งที่จะรับชมได้ยาก เมื่อรายการหนึ่งจบลง Netflix จะคอยแนะนำรายการถัดไป
ในธุรกิจของพวกเขาที่ให้ความได้เปรียบในการแข่งขันเพราะผู้ใช้มีโอกาสน้อยที่จะยกเลิกการสมัครรับข้อมูล แอปพลิเคชั่น Data Science ที่ประสบความสำเร็จอย่างสูงนี้ส่วนใหญ่สำเร็จได้ด้วยความเข้าใจที่ดีเกี่ยวกับธุรกิจและผู้ใช้แอพของพวกเขา
สรุป
ในการประชุม Data Science ปีนี้ วิทยากรที่เกี่ยวข้องกับการคาดการณ์ความเสี่ยงด้านเครดิตกล่าวว่า:
เมื่อมีคนถามฉันว่าโดยพื้นฐานแล้วงานของฉันคืออะไร ฉันตอบ: ฉันนำคุณค่าทางธุรกิจมาโดยพิจารณาจากข้อมูล
สำหรับฉัน นี่เป็นหนึ่งในคำจำกัดความที่ดีที่สุดของ Data Science ไม่ควรมุ่งเน้นไปที่พื้นฐานทางทฤษฎีเท่านั้น แต่โดยเฉพาะอย่างยิ่งในธุรกิจ หากคุณต้องการสร้างแอปพลิเคชัน Machine Learning ที่ดี คุณต้องนึกถึงวิธีที่ผู้ใช้มีพฤติกรรมในระบบของคุณและสิ่งที่พวกเขาต้องการ ด้วยวิธีนี้ คุณจะบรรลุเป้าหมายทางธุรกิจได้สำเร็จ