監督學習與無監督學習:哪種機器學習模型適合您?

已發表: 2022-05-07

機器學習不一定是神秘的。 我們將在本文中分解兩種最常見的類型及其用例。

一個人和一台機器互相共享數據

作為業務領導者,您知道採用新技術可以緩解痛點並使您的業務更具競爭力。 這就是為什麼在中斷的一年中,許多企業轉向數字化轉型以度過難關。

您可能還意識到機器學習等新興技術的潛力,可以使您的業務面向未來。 但是買家要小心——如果你不了解機器學習的應用,你就有可能把錢浪費在不可用的結果上。 看下面的例子,看看我們的意思。

為了準備寫這篇文章,我們使用了自然語言生成 (NLG) 工具來幫助我們了解如何最好地分解監督學習和無監督學習。 以下是我們 NLG 對應方的摘錄:

“每個無監督學習模型都提供基於相關係數、誤報響應、極少的統計有用數據(或嚴重依賴它)的超前張量矩陣,用於使用圖形和樹進行降維以生成它們自己的極限數據點。”

感覺困惑? 我們也是。 但是,儘管 NLG 工具的句子語法令人眼花繚亂,但這項人工智能 (AI) 實驗並非完全沒有幫助。 它讓我們意識到,要從 AI 中獲得最佳結果,找到正確的應用程序很重要——這正是我們編寫本指南來幫助您的原因。

我們與 Fast Data Science 的數據科學顧問 Thomas Wood 進行了交談,他以易於理解的方式幫助分解了該主題。 在 Wood 的幫助下,我們將解釋兩種常見的機器學習方法(監督學習和非監督學習)之間的區別,以及最適合每種方法的用例。

機器學習新手? 在深入研究本文的其餘部分之前,請查看這些關鍵概念:

  • 機器學習 (ML)是人工智能 (AI) 的一個子集,它使用算法和統計模型從數據中提取知識來解決問題。 從廣義上講,所有機器學習模型都可以分為監督學習和無監督學習。
  • 機器學習中的算法是在數據上運行以創建機器學習模型的過程。
  • 機器學習中的模型是在數據上運行的機器學習算法的輸出。 意思是,模型代表機器學習算法學到的東西。

有監督學習和無監督學習的主要區別是什麼?

如果我們必須將其歸結為一句話,那就是:監督學習和無監督學習之間的主要區別在於,監督學習使用標記數據來幫助預測結果,而無監督學習則不然。

但是,這兩種方法之間還有其他細微差別,我們將繼續澄清這些細微差別,以便您可以根據自己的情況選擇最佳方法。

監督機器學習的工作原理

就像我們上面提到的,監督學習使用標記數據來訓練模型。 但這在理論上意味著什麼? 讓我們通過一些示例開始。

通過監督學習,該模型同時提供輸入和相應的輸出。 假設我們正在訓練模型來識別和分類不同種類的水果。 在此示例中,您將提供幾張水果圖片作為輸入,以及它們的形狀、大小、顏色和風味特徵。 接下來,您將為模型提供每種水果的名稱作為輸出。

最終,該算法將在水果的特徵(輸入)和它們的名稱(輸出)之間找到一個模式。 一旦發生這種情況,可以為模型提供新的輸入,它會為您預測輸出。 這種稱為分類的監督學習是最常見的

無監督機器學習的工作原理

相反,無監督學習的工作原理是教模型從未標記的數據中自行識別模式(因此是無監督的)。 這意味著提供了輸入,但不提供輸出。

要了解它是如何工作的,讓我們繼續上面給出的水果示例。 通過無監督學習,您將為模型提供輸入數據集(水果的圖片及其特徵),但您不會提供輸出(水果的名稱)。

該模型將使用合適的算法來訓練自己,根據水果之間最相似的特徵將水果分成不同的組。 這種稱為聚類的無監督學習是最常見的。

需要再運行一遍這兩個機器學習模型嗎? 查看這個簡短的視頻以獲得高級解釋:

什麼時候應該使用監督學習與無監督學習?

您應該使用監督學習還是無監督學習取決於您的目標以及您可以使用的數據的結構和數量。 在做出決定之前,請讓您的數據科學家評估以下內容:

  • 輸入數據是未標記數據集還是已標記數據集? 如果它沒有標記,您的團隊可以支持額外的標記嗎?
  • 你想要達到的目標是什麼? 您是在處理反復出現的、定義明確的問題,還是算法需要預測新問題?
  • 是否有支持您的數據量和結構的算法? 它們是否具有您需要的相同維度(特徵或屬性的數量)?

何時使用監督機器學習

根據 Gartner 的說法,監督學習是業務場景中最流行和最常用的機器學習類型。 這可能是因為儘管對大數據進行分類在監督學習中可能是一個真正的挑戰,但結果非常準確且值得信賴(客戶可以使用完整的源代碼)。

以下是監督學習的一些用例示例。 有些是特定於行業的,而另一些可以適用於任何組織:

  • 識別疾病的風險因素並製定預防措施
  • 分類電子郵件是否為垃圾郵件
  • 預測房價
  • 預測客戶流失
  • 預測降雨和天氣狀況
  • 找出貸款申請人是低風險還是高風險
  • 預測汽車發動機中機械部件的故障
  • 預測社交媒體分享分數和績效分數

Wood 與我們分享了他如何使用監督學習為客戶的傳入電子郵件構建分類系統的示例。 在 CRM 系統的幫助下,電子郵件被分類為代表常見查詢(例如客戶更改地址、投訴)的組。 Wood 然後使用這些類別來訓練模型,以便當它收到新的傳入電子郵件時,它會知道將該電子郵件分配到哪個類別。 他說:

“在這種情況下,監督學習是可能的,因為 CRM 系統的存在提供了一組‘標籤’來訓練模型。 沒有這些,只有無監督學習才有可能。”

想要清理收件箱嗎? 開始使用 CRM 軟件。

何時使用無監督機器學習

與監督學習相比,無監督學習可以實時處理大量數據。 並且由於該模型將自動識別數據中的結構(分類),因此在人類難以自行發現數據中的趨勢的情況下,它非常有用。

例如,如果您出於營銷目的嘗試將潛在消費者分組,那麼無監督聚類方法將是一個很好的起點。

以下是無監督學習的一些用例示例:

  • 按購買行為對客戶進行分組
  • 在客戶數據中找到相關性(例如,購買某種款式包的人可能也對某種款式的鞋子感興趣)
  • 按購買歷史細分數據
  • 根據不同的興趣對人進行分類
  • 按製造和銷售指標對庫存進行分組

Wood 向我們解釋說,他曾在一家製藥公司工作,該公司的生產設施遍布世界各地。 該公司用來記錄其設施中發生的錯誤的軟件沒有提供常見錯誤選項的下拉菜單可供選擇。

因此,工廠工人以純文本(英語或當地語言)記錄錯誤。 該公司希望了解常見製造問題的原因,但如果不對錯誤進行分類,就無法對數據進行統計分析。

Wood 使用無監督學習算法來發現錯誤的共性。 他能夠確定最大的主題並生成統計數據,例如公司常見製造問題的餅圖細分。 木 說:

“這讓公司可以一目了然地了解他們業務中的問題,否則這些問題需要大量的手工工作。”

為智能未來做準備:擁抱機器學習

機器學習是一種強大的工具,可以幫助您解決業務問題並做出數據驅動的決策。 希望本文能給您一些關於如何在您的組織中實施有監督或無監督機器學習的想法。

如果您準備好接受機器學習技術,那麼下一步應該是評估當前軟件堆棧的功能。 然後,向您的供應商詢問您所在行業其他客戶的用例,這些用例與您希望使用機器學習的應用程序一致。

感覺還有很多東西要學? 查看 Capterra 的這些相關讀數:

  • 什麼是機器學習? 您的基本商業智能詞彙表
  • 機器學習與人工智能的精明小型企業指南
  • 人工智能在小型企業中的主要應用

此外,查看 Capterra 的機器學習軟件目錄,您可以在其中閱讀真實用戶的評論,並按價格點或功能過濾工具。