ビッグデータ分析で機械学習を使用する方法
公開: 2022-09-30機械学習により、組織はビッグデータを利益を高める洞察に変えることができます。 ビッグデータと機械学習がどのように関連しているか、またそれらをどのように使用するかを学びます。
何年も前、ビジネス オーナーは自分の記憶に頼って、顧客にサービスを提供する方法をカスタマイズする必要がありました。 ジョーンズさんが入ってきたとき、店主は最後に買ったものを思い出さなければならなかった。
現在、ビッグ データのおかげで、大量の顧客データとビジネス データがすぐに利用できるようになりました。 ジョーンズさんがどこに住んでいるか、過去 10 年間に何を購入したか、いくら使ったか、アイテムを返品する頻度など、数十の指標を知っています。 機械学習を使用すると、このデータやその他のデータをビジネスを後押しする洞察に変えることができます。 ここでは、ビッグ データと機械学習の内訳と、それらを活用してビジネスを強化する方法について説明します。
ビッグデータと機械学習とは
ビッグデータと機械学習は異なりますが、密接に関連しています。
ビッグデータとは?
ビッグ データとは、特殊なツールなしでは活用できない巨大な、または信じられないほど複雑なデータセットを指します。 一部の企業は、ビッグデータを扱う必要がまったくありません。 たとえば、売上と在庫のデータを生成する 3 つの場所を持つレストランがある場合、それは「ビッグ データ」ではありません。
一方、同じレストランがさらに 10 か所の場所と、顧客がオンラインで注文したり、ロイヤルティ リワードを利用したり、顧客サービス担当者とテキストでチャットしたりできるモバイル アプリを追加した場合、ビッグ データの状況が発生します。 アプリだけで、次に関するデータが生成される場合があります。
- 顧客が最も頻繁に注文する食事
- 顧客が注文する時間帯
- 位置情報データに基づいて顧客がどこから食べ物を注文するか
- 顧客が住んでいる場所と、各町に関連付けられた購入統計
- 各拠点の売上データ
- お客様がポイントを使用する方法
- 繁忙期・休日のデータ購入
これらの例は表面をなぞったにすぎません。 この種のアプリは、数十のデータセットを生成できます。 また、情報はほぼ一定の間隔でストリーミングされます。 それがビッグデータです。
機械学習とは
機械学習 (ML) とは、コンピューターを使用してデータのパターンを認識することを指します。 機械学習は、段階的に配置された一連の命令であるアルゴリズムを使用してこれを行います。 機械学習モデルは、アルゴリズムのステップを使用してパターンを学習します。 これには、パターンが壊れている時期を認識し、パターンを相互に比較する方法を学習することも含まれます。
簡単な例として、販売データを分析するための機械学習アルゴリズムを構築するとします。 5 年分の売上高があります。 あなたの目標は、6 月から 8 月の間にどの商品を販売すべきかを考え出すことで、夏の利益を最大化することです。
機械学習システムを次のようにプログラムできます。
- 各製品の売上データを月ごとに集計します。
- 6 月から 8 月までの販売量が最も多い製品を特定します。
- 各製品の提供に関連する売上を予測します。
- 提供する製品と、それらを 6 月、7 月、8 月、または 3 か月すべてで提供する必要があるかどうかを指定します。
もちろん、ML をさらに一歩進めて、各製品の売上原価 (COGS) を組み込むこともできます。これには、配送、人件費、保管、およびその他のデータが含まれます。 次に、ML モデルは、夏の販売量が最も多い製品を推奨するだけでなく、どの製品が最も純利益をもたらすかを示すこともできます。
次に、同じモデルを使用して、次の販売に関する洞察を提供できます。
- 年間を通じての個々の製品
- 同様のターゲット市場を対象とした新製品
- 隔月
ビッグデータにおける機械学習とは
ビッグデータのコンテキストでは、データにパターンが存在する可能性がある場合はいつでも、機械学習を使用してそれらを発見し、有用な洞察を提供できます。 また、ML を使用して、アルゴリズムが分析するパターンに基づいて推奨事項を作成することもできます。
ビッグデータで機械学習がどのように機能するか
機械学習の最も一般的なアプリケーションの 1 つは自動運転車です。 車は機械学習を使用して、周囲や他の車両から収集したデータに関連して何をすべきかを決定します。
たとえば、自動運転車内のカメラが一時停止の標識を「見る」と、それを認識して自動的にブレーキをかけることができます。 この決定の背後にあるプロセスは、複数の機械学習アルゴリズムをテストするデータ サイエンティストのグループから始まった可能性が最も高いです。 大まかに言うと、これには次の 3 つの手順が必要です。
1. トレーニング
ビッグ データを分析するために、データ サイエンティストはまずトレーニング セットを使用して、1 つまたは複数のアルゴリズムに何を探すべきかを教えます。
たとえば、一時停止標識の場合、トレーニング セットは数千の一時停止標識の画像になります。 データ エンジニアは、一時停止標識の画像をさまざまな角度から、さまざまな照明で、さらには木やその他の物体が部分的に遮っている状態で提示します。
トレーニング フェーズの最後に、アルゴリズムが一時停止標識の形と色のパターンを識別したことを期待します。 言い換えれば、停止標識が「どのように見えるか」を、さまざまな照明下で、さまざまな角度から知っています。
2.検証
検証セットは、まったく異なる一連のビッグ データを使用して ML モデルがどの程度正確であるかを把握するために使用されます。 検証フェーズの目的は、ML モデルを微調整する方法を見つけることです。
たとえば、一時停止標識を識別するために設計された ML モデルが 95% の精度であり、間違った画像のすべてが非常に暗かったとします。 その後、開発者は、各画像のコントラストを高める別の式を使用して、重要な特性を ML モデルで見やすくすることができます。
3. テスト
テスト フェーズでは、トレーニング フェーズと検証フェーズで見たものとはまったく異なる、より多くのビッグ データを ML モデルにフィードします。
たとえば、一時停止標識モデルをテストするために、プログラマーはさまざまな種類の標識の 250,000 枚の画像を ML モデルに表示できます。その一部は一時停止標識です。 次に、結果を分析して、モデルが一時停止標識をどれだけ正確に区別できるかを確認し、他の種類の標識の誤認を回避しました。

機械学習とビッグデータに関する課題
ML を使用してビッグデータを研究するデータ サイエンティストが直面する最も困難な課題の 2 つは、不正確さと倫理的ジレンマです。
1.不正確さ
当然のことながら、高度な計算プロセスが含まれていても、ビッグデータ分析で機械学習を使用するときはいつでも試行錯誤の要素を経験することになります. これは、モデルをトレーニング、検証、およびテストするときに、どの要因が結果をゆがめる可能性があるかがわからないためです。
たとえば、一時停止の標識や人間の顔などの画像を識別する場合、複数の要因が ML モデルのパフォーマンス低下の原因となる可能性があります。 たとえば、会社のセキュリティ システムを改善するための機械学習モデルを開発しているとします。 具体的には、重役やその他の高位の人々の顔を識別できるモデルが必要であり、建物の機密エリアへのアクセスを許可できます。 検証段階では、システムの正確性は約 65% にすぎません。 ただし、これは次のようないくつかの変数が原因である可能性があります。
- 顔のモザイク画像
- ピントが合っていない画像
- 顔のスキャン中に目をそらしている人物
- サングラス、フェイスマスク、スカーフ、または識別結果をゆがめる可能性のあるものを着用することを決定した個人
2. 倫理的ジレンマ
倫理的な課題もあります。 たとえば、人事部門が機械学習を使用して最も適格な候補者を特定し、1,500 の履歴書のデジタル スタックから引き出したとします。
男性のみが運営する企業や採用部門を使用して ML モデルをトレーニングした場合、データに偏りが含まれる可能性があります。 一部の男性は、メリットや資格以外の理由で、他の男性を雇う傾向がある場合があります。 したがって、エンジニアが ML モデルをトレーニングして探す「成功した」候補者は、ほとんどの場合、男性である可能性があります。 その結果、モデルは、より資格のある女性ではなく、男性を推奨します。
ビジネスの文脈において、ビッグデータと機械学習はどのように関連していますか?
ビジネス コンテキストでは、機械学習は組織が生成するビッグ データを使用して、ビジネスに不可欠なプロセスを改善または自動化し、セキュリティと安全性を強化します。 潜在的なアプリケーションは文字通り無限であり、生成するデータの種類と同じくらい多様です。
たとえば、工場や生産施設では機械学習を使用して、工場フロアの温度と湿度のレベルを最適化できます。 たとえば、機械学習モデルは次のことを把握できます。
- 予定外の休憩を最小限に抑えながら、従業員の生産性を最大化する温度と湿度のレベル
- 条件が悪いと劣化が早くなる繊細な機器に最適な温度と湿度のレベル
- HVAC システムと除湿機を稼働させる費用を考えると、最も費用対効果の高い温度と湿度の条件
このシステムを使用して大気システムを自動的に制御し、最適な結果を得ることができます。
機械学習とビッグデータ分析はマーケティングでどのように使用されていますか?
マーケティングは、機械学習とビッグデータ分析の最も有望なアプリケーションのいくつかを提供します。 次の実際の例を考えてみましょう。
ハーレーダビッドソンのアルバートがリードを 2,930% 増加
ハーレー ダビッドソンは、機械学習を使用してマーケティングの意思決定を行うアルバートという名前のロボットを作成しました[1] 。 これが、アルバートがハーレーダビッドソンの重役たちを明るい夕日に向かって乗り降りさせるのを助けた方法です.
Harley Davidson は、以前の顧客との既存の関係を活用したいと考えていました。 彼らは Albert を使って次のように分析しました。
- ユーザーが購入した頻度
- これらの顧客が費やした金額
- 顧客がハーレーダビッドソンのウェブサイトを閲覧するのに費やした時間
次に、Albert はこのデータを使用して、顧客をさまざまなセグメントに分類しました。 次に、マーケティング チームは、顧客のカテゴリごとにテスト キャンペーンを作成しました。 キャンペーンの成功をテストした後、チームはそれをスケールアップして、以前の顧客を幅広く巻き込みました。
その結果、ハーレーダビッドソンの売上は 40% 増加しました。 また、2,930% 多くのリードを生み出しました。 これらのリードの半分は、Albert 自身によって直接特定されました。 アルバートは、有料顧客に転換する可能性が非常に高いリードのプロファイルを調査し、次に他のユーザーのデータ プロファイルを調査して、「類似者」、つまりコンバージョン率の高い顧客と多くの共通点を持つ人々を特定しました。
ジョーンズさんが次に何を購入するかを把握しようとしている場合でも、複雑な生産施設の効率を最適化しようとしている場合でも、機械学習は一見ランダムに見えるビッグデータを革新的な洞察に変えることができます。 ちょっとしたブレインストーミングと創造的な思考で、ML とビッグデータを使用して競合他社をしのぎ、組織を次のレベルに引き上げる方法を見つけることができます。
ビッグデータに役立つツールについて詳しく知りたいですか?
ビッグ データ ソフトウェアは、ビジネスがビッグ データと分析を最大限に活用できるようにするために機能します。 上位のツールを参照して比較し、レビューを読んで、特定のビジネス ニーズに最適なソリューションを見つけてください。
ソース
1. ハーレーダビッドソン NYC は、Albert, Albert.ai で史上最高値を記録しました。