监督学习与无监督学习：哪种机器学习模型适合您？

已发表: 2022-05-07

机器学习不一定是神秘的。我们将在本文中分解两种最常见的类型及其用例。

作为业务领导者，您知道采用新技术可以缓解痛点并使您的业务更具竞争力。这就是为什么在中断的一年中，许多企业转向数字化转型以度过难关。

您可能还意识到机器学习等新兴技术的潜力，可以使您的业务面向未来。但是买家要小心——如果你不了解机器学习的应用，你就有可能把钱浪费在不可用的结果上。看下面的例子，看看我们的意思。

为了准备写这篇文章，我们使用了自然语言生成 (NLG) 工具来帮助我们了解如何最好地分解监督学习和无监督学习。以下是我们 NLG 对应方的摘录：

“每个无监督学习模型都提供基于相关系数、误报响应、极少的统计有用数据（或严重依赖它）的超前张量矩阵，用于使用图形和树进行降维以生成它们自己的极限数据点。”

感觉困惑？我们也是。但是，尽管 NLG 工具的句子语法令人眼花缭乱，但这项人工智能 (AI) 实验并非完全没有帮助。它让我们意识到，要从 AI 中获得最佳结果，找到正确的应用程序很重要——这正是我们编写本指南来帮助您的原因。

我们与 Fast Data Science 的数据科学顾问 Thomas Wood 进行了交谈，他以易于理解的方式帮助分解了该主题。在 Wood 的帮助下，我们将解释两种常见的机器学习方法（监督学习和非监督学习）之间的区别，以及最适合每种方法的用例。

机器学习新手？在深入研究本文的其余部分之前，请查看这些关键概念：

机器学习 (ML)是人工智能 (AI) 的一个子集，它使用算法和统计模型从数据中提取知识来解决问题。从广义上讲，所有机器学习模型都可以分为监督学习和无监督学习。
机器学习中的算法是在数据上运行以创建机器学习模型的过程。
机器学习中的模型是在数据上运行的机器学习算法的输出。意思是，模型代表机器学习算法学到的东西。

有监督学习和无监督学习的主要区别是什么？

如果我们必须将其归结为一句话，那就是：监督学习和无监督学习之间的主要区别在于，监督学习使用标记数据来帮助预测结果，而无监督学习则不然。

但是，这两种方法之间还有其他细微差别，我们将继续澄清这些细微差别，以便您可以根据自己的情况选择最佳方法。

监督机器学习的工作原理

就像我们上面提到的，监督学习使用标记数据来训练模型。但这在理论上意味着什么？让我们通过一些示例开始。

通过监督学习，该模型同时提供输入和相应的输出。假设我们正在训练模型来识别和分类不同种类的水果。在此示例中，您将提供几张水果图片作为输入，以及它们的形状、大小、颜色和风味特征。接下来，您将为模型提供每种水果的名称作为输出。

最终，该算法将在水果的特征（输入）和它们的名称（输出）之间找到一个模式。一旦发生这种情况，可以为模型提供新的输入，它会为您预测输出。这种称为分类的监督学习是最常见的。

无监督机器学习的工作原理

相反，无监督学习的工作原理是教模型从未标记的数据中自行识别模式（因此是无监督的）。这意味着提供了输入，但不提供输出。

要了解它是如何工作的，让我们继续上面给出的水果示例。通过无监督学习，您将为模型提供输入数据集（水果的图片及其特征），但您不会提供输出（水果的名称）。

该模型将使用合适的算法来训练自己，根据水果之间最相似的特征将水果分成不同的组。这种称为聚类的无监督学习是最常见的。

需要再运行一遍这两个机器学习模型吗？查看这个简短的视频以获得高级解释：

什么时候应该使用监督学习与无监督学习？

您应该使用监督学习还是无监督学习取决于您的目标以及您可以使用的数据的结构和数量。在做出决定之前，请让您的数据科学家评估以下内容：

输入数据是未标记数据集还是已标记数据集？如果它没有标记，您的团队可以支持额外的标记吗？
你想要达到的目标是什么？您是在处理反复出现的、定义明确的问题，还是算法需要预测新问题？
是否有支持您的数据量和结构的算法？它们是否具有您需要的相同维度（特征或属性的数量）？

何时使用监督机器学习

根据 Gartner 的说法，监督学习是业务场景中最流行和最常用的机器学习类型。这可能是因为尽管对大数据进行分类在监督学习中可能是一个真正的挑战，但结果非常准确且值得信赖（客户可以使用完整的源代码）。

以下是监督学习的一些用例示例。有些是特定于行业的，而另一些可以适用于任何组织：

识别疾病的风险因素并制定预防措施
分类电子邮件是否为垃圾邮件
预测房价
预测客户流失
预测降雨和天气状况
找出贷款申请人是低风险还是高风险
预测汽车发动机中机械部件的故障
预测社交媒体分享分数和绩效分数

Wood 与我们分享了他如何使用监督学习为客户的传入电子邮件构建分类系统的示例。在 CRM 系统的帮助下，电子邮件被分类为代表常见查询（例如客户更改地址、投诉）的组。 Wood 然后使用这些类别来训练模型，以便当它收到新的传入电子邮件时，它会知道将该电子邮件分配到哪个类别。他说：

“在这种情况下，监督学习是可能的，因为 CRM 系统的存在提供了一组‘标签’来训练模型。没有这些，只有无监督学习才有可能。”

想要清理收件箱吗？开始使用 CRM 软件。

何时使用无监督机器学习

与监督学习相比，无监督学习可以实时处理大量数据。并且由于该模型将自动识别数据中的结构（分类），因此在人类难以自行发现数据中的趋势的情况下，它非常有用。

例如，如果您出于营销目的尝试将潜在消费者分组，那么无监督聚类方法将是一个很好的起点。

以下是无监督学习的一些用例示例：

按购买行为对客户进行分组
在客户数据中找到相关性（例如，购买某种款式包的人可能也对某种款式的鞋子感兴趣）
按购买历史细分数据
根据不同的兴趣对人进行分类
按制造和销售指标对库存进行分组

Wood 向我们解释说，他曾在一家制药公司工作，该公司的生产设施遍布世界各地。该公司用来记录其设施中发生的错误的软件没有提供常见错误选项的下拉菜单可供选择。

因此，工厂工人以纯文本（英语或当地语言）记录错误。该公司希望了解常见制造问题的原因，但如果不对错误进行分类，就无法对数据进行统计分析。

Wood 使用无监督学习算法来发现错误的共性。他能够确定最大的主题并生成统计数据，例如公司常见制造问题的饼图细分。木说：

“这让公司可以一目了然地了解他们业务中的问题，否则这些问题需要大量的手工工作。”

为智能未来做准备：拥抱机器学习

机器学习是一种强大的工具，可以帮助您解决业务问题并做出数据驱动的决策。希望本文能给您一些关于如何在您的组织中实施有监督或无监督机器学习的想法。

如果您准备好接受机器学习技术，那么下一步应该是评估当前软件堆栈的功能。然后，向您的供应商询问您所在行业其他客户的用例，这些用例与您希望使用机器学习的应用程序一致。

感觉还有很多东西要学？查看 Capterra 的这些相关读数：

什么是机器学习？您的基本商业智能词汇表
机器学习与人工智能的精明小型企业指南
人工智能在小型企业中的主要应用

此外，查看 Capterra 的机器学习软件目录，您可以在其中阅读真实用户的评论，并按价格点或功能过滤工具。