如何在大數據分析中使用機器學習

已發表: 2022-09-30

機器學習使組織能夠將大數據轉化為提高利潤的洞察力。 了解大數據和機器學習之間的關係以及如何使用它們。

多年前,企業主不得不依靠他們的記憶來定制他們為客戶服務的方式。 當瓊斯女士走進來時,一位店主不得不回憶她上次買了什麼,是否最終把它帶回來,以及她上次訪問時是否抱怨過。

現在,借助大數據,大量客戶和業務數據觸手可及。 你知道瓊斯女士住在哪裡,她在過去 10 年裡買了什麼,她花了多少錢,她退貨的頻率,以及許多其他指標。 使用機器學習,您可以將這些數據和其他數據轉化為促進業務發展的洞察力。 以下是大數據和機器學習的細分,以及如何利用它們為您的業務提供動力。

什麼是大數據和機器學習?

大數據和機器學習是不同的,但又密切相關。

什麼是大數據?

大數據是指巨大或極其複雜的數據集,如果沒有專門的工具,這些數據集可能無法利用。 有些企業永遠不必處理大數據。 例如,如果您有一家餐廳,其三個地點都在生成銷售和庫存數據,那麼這不是“大數據”。

另一方面,如果同一家餐廳增加了 10 個地點和一個移動應用程序,使客戶能夠在線下訂單、利用忠誠度獎勵並通過文本與客戶服務代表聊天,那麼您現在就有了大數據情況。 該應用程序本身可能會產生以下數據:

  • 顧客最常訂購的餐點
  • 客戶下訂單的時間
  • 客戶根據地理位置數據從哪裡訂購食物
  • 客戶居住地以及與每個城鎮相關的購買統計數據
  • 每個地點的銷售數據
  • 客戶如何使用他們的獎勵積分
  • 在高峰和節假日期間購買數據

這些例子只是表面上的。 這種應用程序可以生成數十個數據集。 此外,信息將以近乎恆定的方式流入。 那就是大數據。

什麼是機器學習?

機器學習 (ML) 是指使用計算機識別數據中的模式。 機器學習使用算法來做到這一點,這些算法是逐步製定的指令集。 機器學習模型使用算法中的步驟來學習模式。 這還包括識別模式何時被破壞以及學習如何將模式相互比較。

舉個簡單的例子,假設您想構建一個機器學習算法來分析銷售數據。 你有五年的銷售數據。 您的目標是通過確定應在 6 月至 8 月之間出售哪些產品來最大化夏季利潤。

您可以將機器學習系統編程為:

  • 逐月匯總每個產品的銷售數據。
  • 確定 6 月至 8 月期間銷量最高的產品。
  • 預測與提供每種產品相關的銷售額。
  • 告訴您要提供哪些產品以及您是否應該在 6 月、7 月、8 月或整個三個月內提供它們。

當然,您可以將 ML 更進一步,將每個產品的銷售成本 (COGS) 納入其中,包括運輸、人工、存儲和其他數據。 那麼你的 ML 模型不僅可以推薦夏季銷量最高的產品,還可以告訴你哪些產品帶來了最多的淨利潤。

然後,您可以使用相同的模型來提供銷售洞察:

  • 一年內的單個產品
  • 針對類似目標市場的新產品
  • 一年中的每隔一個月

什麼是大數據中的機器學習?

在大數據的背景下,只要數據中可能存在模式,您就可以使用機器學習來發現它們並提供有用的見解。 此外,您可以使用 ML 根據算法分析的模式提出建議。

機器學習如何處理大數據

機器學習最流行的應用之一是自動駕駛汽車。 汽車使用機器學習來決定如何處理從周圍環境和其他車輛收集的數據。

例如,當自動駕駛汽車內的攝像頭“看到”停車標誌時,它們可以識別出來並自動剎車。 這一決定背後的過程很可能始於一組數據科學家測試多種機器學習算法。 在高層次上,這需要三個步驟:

1. 培訓

為了分析大數據,數據科學家首先使用訓練集來教授一個或多個算法他們應該尋找什麼。

例如,使用停車標誌,訓練集將是數千張停車標誌的圖像。 數據工程師會從不同的角度、不同的光線、甚至是樹木或其他物體部分遮擋它們的情況下呈現停車標誌的圖像。

在訓練階段結束時,希望算法已經識別出停車標誌形狀和顏色的模式。 換句話說,它知道停車標誌的“樣子”——以及在不同的燈光下和從不同的角度。

2. 驗證

驗證集用於確定 ML 模型使用完全不同的大數據集的準確度。 驗證階段的目的是發現微調 ML 模型的方法。

例如,假設設計用於識別停車標誌的 ML 模型的準確率為 95%,並且它出錯的所有圖像都非常暗。 然後,開發人員可以使用另一個公式來增加每個圖像的對比度,從而使 ML 模型更容易看到重要特徵。

3. 測試

測試階段涉及為 ML 模型提供更多與訓練和驗證階段所見完全不同的大數據。

例如,為了測試停車標誌模型,程序員可以向 ML 模型展示 250,000 張不同類型標誌的圖像,其中一些是停車標誌。 然後,他們將分析結果,以了解該模型能夠準確區分停車標誌以及避免錯誤識別其他類型的標誌。

機器學習和大數據的挑戰

使用機器學習研究大數據的數據科學家面臨的兩個最艱鉅的挑戰是不准確和道德困境。

1. 不准確

自然,即使涉及高級計算過程,在大數據分析中使用機器學習時,您仍然會經歷反複試驗。 這是因為在訓練、驗證和測試模型時,您永遠不知道哪些因素會影響您的結果。

例如,在識別圖像(例如停車標誌或人臉)時,多種因素可能會導致 ML 模型的性能不佳。 例如,假設您正在開發一種機器學習模型來改進公司的安全系統。 具體來說,您需要一個可以識別高管和其他高級人員面孔的模型,以便他們可以訪問建築物的敏感區域。 在驗證階段,系統的準確率僅為 65% 左右。 但這可能是由於幾個變量,例如:

  • 人臉的像素化圖像
  • 失焦的圖像
  • 在面部掃描期間看向別處的人
  • 決定戴太陽鏡、面罩、圍巾或其他可能扭曲識別結果的東西的人

2. 道德困境

還有道德挑戰。 例如,假設人力資源部門使用機器學習來識別最合格的候選人,將他們從包含 1,500 份簡歷的數字堆棧中提取出來。

如果 ML 模型是使用僅由男性經營的公司和招聘部門進行培訓的,則數據可能包含偏見。 一些男性可能更傾向於僱用其他男性——出於他們的優點或資格以外的原因。 因此,工程師訓練 ML 模型尋找的“成功”候選人在大多數情況下可能是男性。 因此,該模型推薦男性而不是可能更有資格的女性。

在商業環境中,大數據和機器學習有什麼關係?

在業務環境中,機器學習使用您的組織產生的大數據來改進或自動化業務關鍵流程並增強安全性。 潛在的應用程序實際上是無窮無盡的,並且與您生成的不同類型的數據一樣多樣化。

例如,工廠或生產設施可以使用機器學習來優化其工廠車間的溫度和濕度水平。 例如,機器學習模型可以計算出:

  • 溫度和濕度水平可以最大限度地提高員工的工作效率,同時最大限度地減少他們必須採取的計劃外休息次數
  • 敏感設備的理想溫度和濕度水平,在錯誤條件下可能會更快惡化
  • 考慮到運行 HVAC 系統和除濕機的費用,最具成本效益的溫度和濕度條件

然後,該系統可用於自動控制您的大氣系統以達到最佳效果。

如何在營銷中使用機器學習和大數據分析?

市場營銷提供了一些最有前途的機器學習和大數據分析應用。 考慮以下現實生活中的示例。

哈雷戴維森的阿爾伯特將領先優勢提高了 2,930%

哈雷戴維森製造了一個名為 Albert 的機器人,它使用機器學習來做出營銷決策[1] 。 這就是艾伯特如何幫助哈雷戴維森的高管們駛入更明亮的日落。

Harley Davidson 希望利用他們與以前客戶的現有關係。 他們使用 Albert 分析:

  • 人們購買的頻率
  • 這些客戶花了多少錢
  • 客戶花了多少時間瀏覽哈雷戴維森的網站

Albert 隨後使用這些數據將客戶分為不同的細分市場。 然後,營銷團隊為每個類別的客戶創建了測試活動。 在測試了該活動的成功之後,該團隊將其擴大到涉及大量以前的客戶。

結果,哈雷戴維森的銷售額增長了 40%。 他們還產生了 2,930% 以上的潛在客戶。 這些線索中有一半是由 Albert 他 [it?] 自己直接確定的。 Albert 研究了很可能轉化為付費客戶的潛在客戶的資料,然後研究了其他用戶的數據資料,並確定了“相似”或與高轉化客戶有很多共同點的人。

無論您是想弄清楚瓊斯女士接下來會買什麼,還是優化複雜生產設施的效率,機器學習都可以將看似隨機的大數據轉化為變革性見解。 通過一些頭腦風暴和創造性思維,您可以找到使用 ML 和大數據來超越競爭對手並將您的組織提升到新水平的方法。

想了解更多關於有助於處理大數據的工具嗎?

大數據軟件可以幫助確保您的企業充分利用其大數據和分析。 瀏覽和比較一些頂級工具,閱讀評論,並為您的特定業務需求找到最佳解決方案。


來源

1. 哈雷戴維森紐約與 Albert, Albert.ai 創下歷史新高