面向业务的数据科学
已发表: 2018-12-13他们说数据科学家是 21 世纪最性感的工作(我在各种会议上遇到的所有数据科学家都知道这一点)。 但是当他们只谈论机器学习的理论部分时,我有时想知道他们是否知道他们的工作为何如此火爆。 原因是数据科学家知道如何结合数据、技术技能和统计知识来实现业务目标。 所以要做好数据科学,首先要考虑业务。
我知道一些公司添加分析工具来跟踪每个用户的触摸而不考虑他们实际想要完成的事情的情况。 他们收集了许多他们不了解且无法用于推进业务的数据。
不要犯这样的错误! 在数据科学过程的每个步骤中考虑您的目标和行业特异性。 你越有创造力,你成功的机会就越大。 为了证明这一点,我将向您展示一些数据科学在巨头应用中的鼓舞人心的例子……
如何开始您的数据科学冒险
您听说很多公司使用 ML 来增加收入,但您不知道如何开始? 为了不以昂贵的基础设施和无用的(满足您的业务需求)数据而告终,您应该从提供以下问题的答案开始:
客户的业务目标是什么? 我们如何使用数据来实现它们?
然后,您可以开始计划可以跟踪和使用哪些数据。
数据收集
我们应该收集哪些数据? 这个问题的答案可能会让你大吃一惊。 根据 Todd Yellin(Netflix 的产品创新副总裁)的说法,可以使用两种类型的数据:显式和隐式 [1]。 在 Netflix 的案例中,显式是指用户对电影评分。 另一方面,隐含的是行为数据——基于用户点击和应用程序的使用。 哪种类型更有价值?
这个问题没有普遍的答案,但在大多数情况下,隐式数据会更有用。 那是因为……人们撒谎。
考虑一个说他喜欢纪录片并给它们评分 5/5 的人的例子。 但是,正如数据显示的那样,他每年都会观看一次这种类型的电影。 同时,他每周五晚上都会看热门剧集。 那是因为他下班后很累,只想在沙发上放松一下。 那么应该使用哪些数据来准备这样的推荐系统:评分还是用户的行为?
要回答这个问题,我们需要思考其发展的商业目标。 Netflix 的目标是鼓励用户观看更多电影。 他们从流行的五星级评级系统开始。 当他们意识到提到的用户更有可能看到朋友而不是关于二战的电影时,他们开发了基于用户行为的推荐系统。 他们还放弃了五星级评级,取而代之的是更简单的二元点赞系统。
如本例所示,应根据行业特性选择收集的数据,并应提供足够的信息来了解用户的决策和需求。 但在这里我们遇到了另一个问题:行为数据、文本和其他非结构化数据在机器学习模型中比结构化数据更难分析和使用。 所以现在是时候谈谈特征工程了。
特征工程
为了说明特征工程在数据科学中的重要性,我想引用谷歌大脑联合创始人兼 deeplearning.ai 创始人 Andrew Ng 的话:
提出功能既困难又耗时,需要专业知识。 应用机器学习基本上是特征工程。 [2]。
https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf
以目的为导向的数据处理方法的一个有趣示例是 Booking.com,用户可以在其中对酒店进行 0 到 10 的评分。但是,如果派对动物对酒店的评价很高,那么对于有孩子的家庭来说,这是一个不错的选择吗? 不必要。

幸运的是,还有用户的评论包含了我们需要的更多信息。 Booking.com 使用情感分析和主题建模来提取评论酒店的优势和劣势,以及用户对住宿的偏好。
让我们考虑这个例子:

A topic 房间设施有负面情绪(用户抱怨淋浴、床、wifi 和空调)。 同时,该用户对酒店、员工和食物的价格给予了好评。 该系统还会分析评论中未提及的内容,因此对用户来说可能并不重要——在我们的示例中,这可能是夜生活。
有了这些见解,该平台可以为具有相似个人资料的用户提供更适合的酒店,在这种情况下,一个有孩子的家庭正在以合理的价格寻找一个安静的酒店度过假期的地方。 更重要的是,Booking.com 对评论进行排序,以便在顶部向查看者显示最有趣的信息。
这带来了双赢的局面:用户可以更快、更轻松地找到针对其特定需求量身定制的优惠,并且平台可以获利,因为这些优惠是用户更有可能购买的优惠。

对数据科学感到好奇?
学到更多数据产品
您部署的数据产品效果令人满意吗? 现在不是自满的时候。 正如 Netflix 示例所示 [3],持续改进系统可以带来显着收益。 一个合适的电影推荐就足够了吗? 我们还能做什么?
Netflix 开箱即用的方法之一不仅是推荐电影,而且还用对给定用户最有吸引力的图像来说明它们。 假设他们向您推荐Good Will Hunting 。 如果你过去看过很多浪漫喜剧,你可能会看到一对接吻情侣的画面,而如果你是喜剧迷,你很可能会看到一位受欢迎的美国喜剧演员的镜头:

使用这种方法,用户滚动浏览无数选项更有可能发现吸引他们注意力的电影。
这种推荐策略和其他推荐策略取得了惊人的效果——平台超过 80% 的内容是基于算法推荐的。 这意味着用户很难看不到东西。 当一个节目结束时,Netflix 会推荐下一个节目。
在他们的业务中具有竞争优势,因为用户取消订阅的可能性要小得多。 数据科学的这种极其成功的应用主要是通过对其业务和应用程序用户的良好理解来完成的。
摘要
在今年的一次数据科学会议上,一位从事信用风险预测的演讲者说:
当人们问我我的工作基本上是什么时,我会回答:我基于数据带来商业价值。
对我来说,这是对数据科学的最佳定义之一。 它不应该仅仅以它的理论基础为导向,尤其是在商业上。 如果您想创建一个好的机器学习应用程序,您需要考虑用户在您的系统中的行为方式以及他们的需求。 考虑到这一点,您将成功实现业务目标。