如何在大数据分析中使用机器学习
已发表: 2022-09-30机器学习使组织能够将大数据转化为提高利润的洞察力。 了解大数据和机器学习之间的关系以及如何使用它们。
多年前,企业主不得不依靠他们的记忆来定制他们为客户服务的方式。 当琼斯女士走进来时,一位店主不得不回忆她上次买了什么,是否最终把它带回来,以及她上次访问时是否抱怨过。
现在,借助大数据,大量客户和业务数据触手可及。 你知道琼斯女士住在哪里,她在过去 10 年里买了什么,她花了多少钱,她退货的频率,以及许多其他指标。 使用机器学习,您可以将这些数据和其他数据转化为促进业务发展的洞察力。 以下是大数据和机器学习的细分,以及如何利用它们为您的业务提供动力。
什么是大数据和机器学习?
大数据和机器学习是不同的,但又密切相关。
什么是大数据?
大数据是指巨大或极其复杂的数据集,如果没有专门的工具,这些数据集可能无法利用。 有些企业永远不必处理大数据。 例如,如果您有一家餐厅,其三个地点都在生成销售和库存数据,那么这不是“大数据”。
另一方面,如果同一家餐厅增加了 10 个地点和一个移动应用程序,使客户能够在线下订单、利用忠诚度奖励并通过文本与客户服务代表聊天,那么您现在就有了大数据情况。 该应用程序本身可能会产生以下数据:
- 顾客最常订购的餐点
- 客户下订单的时间
- 客户根据地理位置数据从哪里订购食物
- 客户居住地以及与每个城镇相关的购买统计数据
- 每个地点的销售数据
- 客户如何使用他们的奖励积分
- 在高峰和节假日期间购买数据
这些例子只是表面上的。 这种应用程序可以生成数十个数据集。 此外,信息将以近乎恒定的方式流入。 那就是大数据。
什么是机器学习?
机器学习 (ML) 是指使用计算机识别数据中的模式。 机器学习使用算法来做到这一点,这些算法是逐步制定的指令集。 机器学习模型使用算法中的步骤来学习模式。 这还包括识别模式何时被破坏以及学习如何将模式相互比较。
举个简单的例子,假设您想构建一个机器学习算法来分析销售数据。 你有五年的销售数据。 您的目标是通过确定应在 6 月至 8 月之间出售哪些产品来最大化夏季利润。
您可以将机器学习系统编程为:
- 逐月汇总每个产品的销售数据。
- 确定 6 月至 8 月期间销量最高的产品。
- 预测与提供每种产品相关的销售额。
- 告诉您要提供哪些产品以及您是否应该在 6 月、7 月、8 月或整个三个月内提供它们。
当然,您可以将 ML 更进一步,将每个产品的销售成本 (COGS) 纳入其中,包括运输、人工、存储和其他数据。 那么你的 ML 模型不仅可以推荐夏季销量最高的产品,还可以告诉你哪些产品带来了最多的净利润。
然后,您可以使用相同的模型来提供销售洞察:
- 一年内的单个产品
- 针对类似目标市场的新产品
- 一年中的每隔一个月
什么是大数据中的机器学习?
在大数据的背景下,只要数据中可能存在模式,您就可以使用机器学习来发现它们并提供有用的见解。 此外,您可以使用 ML 根据算法分析的模式提出建议。
机器学习如何处理大数据
机器学习最流行的应用之一是自动驾驶汽车。 汽车使用机器学习来决定如何处理从周围环境和其他车辆收集的数据。
例如,当自动驾驶汽车内的摄像头“看到”停车标志时,它们可以识别出来并自动刹车。 这一决定背后的过程很可能始于一组数据科学家测试多种机器学习算法。 在高层次上,这需要三个步骤:
1. 培训
为了分析大数据,数据科学家首先使用训练集来教授一个或多个算法他们应该寻找什么。
例如,使用停车标志,训练集将是数千张停车标志的图像。 数据工程师会从不同的角度、不同的光线、甚至是树木或其他物体部分遮挡它们的情况下呈现停车标志的图像。
在训练阶段结束时,希望算法已经识别出停车标志形状和颜色的模式。 换句话说,它知道停车标志的“样子”——以及在不同的灯光下和从不同的角度。
2. 验证
验证集用于确定 ML 模型使用完全不同的大数据集的准确度。 验证阶段的目的是发现微调 ML 模型的方法。
例如,假设设计用于识别停车标志的 ML 模型的准确率为 95%,并且它出错的所有图像都非常暗。 然后,开发人员可以使用另一个公式来增加每个图像的对比度,从而使 ML 模型更容易看到重要特征。
3. 测试
测试阶段涉及为 ML 模型提供更多与训练和验证阶段所见完全不同的大数据。
例如,为了测试停车标志模型,程序员可以向 ML 模型展示 250,000 张不同类型标志的图像,其中一些是停车标志。 然后,他们将分析结果,以了解该模型能够准确区分停车标志以及避免错误识别其他类型的标志。

机器学习和大数据的挑战
使用机器学习研究大数据的数据科学家面临的两个最艰巨的挑战是不准确和道德困境。
1. 不准确
自然,即使涉及高级计算过程,在大数据分析中使用机器学习时,您仍然会经历反复试验。 这是因为在训练、验证和测试模型时,您永远不知道哪些因素会影响您的结果。
例如,在识别图像(例如停车标志或人脸)时,多种因素可能会导致 ML 模型的性能不佳。 例如,假设您正在开发一种机器学习模型来改进公司的安全系统。 具体来说,您需要一个可以识别高管和其他高级人员面孔的模型,以便他们可以访问建筑物的敏感区域。 在验证阶段,系统的准确率仅为 65% 左右。 但这可能是由于几个变量,例如:
- 人脸的像素化图像
- 失焦的图像
- 在面部扫描期间看向别处的人
- 决定戴太阳镜、面罩、围巾或其他可能扭曲识别结果的东西的人
2. 道德困境
还有道德挑战。 例如,假设人力资源部门使用机器学习来识别最合格的候选人,将他们从包含 1,500 份简历的数字堆栈中提取出来。
如果 ML 模型是使用仅由男性经营的公司和招聘部门进行培训的,则数据可能包含偏见。 一些男性可能更倾向于雇用其他男性——出于他们的优点或资格以外的原因。 因此,工程师训练 ML 模型寻找的“成功”候选人在大多数情况下可能是男性。 因此,该模型推荐男性而不是可能更有资格的女性。
在商业环境中,大数据和机器学习有什么关系?
在业务环境中,机器学习使用您的组织产生的大数据来改进或自动化业务关键流程并增强安全性。 潜在的应用程序实际上是无穷无尽的,并且与您生成的不同类型的数据一样多样化。
例如,工厂或生产设施可以使用机器学习来优化其工厂车间的温度和湿度水平。 例如,机器学习模型可以计算出:
- 温度和湿度水平可以最大限度地提高员工的工作效率,同时最大限度地减少他们必须采取的计划外休息次数
- 敏感设备的理想温度和湿度水平,在错误条件下可能会更快恶化
- 考虑到运行 HVAC 系统和除湿机的费用,最具成本效益的温度和湿度条件
然后,该系统可用于自动控制您的大气系统以达到最佳效果。
如何在营销中使用机器学习和大数据分析?
市场营销提供了一些最有前途的机器学习和大数据分析应用。 考虑以下现实生活中的示例。
哈雷戴维森的阿尔伯特将领先优势提高了 2,930%
哈雷戴维森制造了一个名为 Albert 的机器人,它使用机器学习来做出营销决策[1] 。 这就是艾伯特如何帮助哈雷戴维森的高管们驶入更明亮的日落。
Harley Davidson 希望利用他们与以前客户的现有关系。 他们使用 Albert 分析:
- 人们购买的频率
- 这些客户花了多少钱
- 客户花了多少时间浏览哈雷戴维森的网站
Albert 随后使用这些数据将客户分为不同的细分市场。 然后,营销团队为每个类别的客户创建了测试活动。 在测试了该活动的成功之后,该团队将其扩大到涉及大量以前的客户。
结果,哈雷戴维森的销售额增长了 40%。 他们还产生了 2,930% 以上的潜在客户。 这些线索中有一半是由 Albert 他 [it?] 自己直接确定的。 Albert 研究了很可能转化为付费客户的潜在客户的资料,然后研究了其他用户的数据资料,并确定了“相似”或与高转化客户有很多共同点的人。
无论您是想弄清楚琼斯女士接下来会买什么,还是优化复杂生产设施的效率,机器学习都可以将看似随机的大数据转化为变革性见解。 通过一些头脑风暴和创造性思维,您可以找到使用 ML 和大数据来超越竞争对手并将您的组织提升到新水平的方法。
想了解更多关于有助于处理大数据的工具吗?
大数据软件可以帮助确保您的企业充分利用其大数据和分析。 浏览和比较一些顶级工具,阅读评论,并为您的特定业务需求找到最佳解决方案。
来源
1. 哈雷戴维森纽约与 Albert, Albert.ai 创下历史新高