Comment utiliser l'apprentissage automatique dans l'analyse de données volumineuses

Publié: 2022-09-30

L'apprentissage automatique permet aux organisations de transformer les mégadonnées en informations génératrices de profits. Découvrez comment le big data et l'apprentissage automatique sont liés et comment les utiliser.

Il y a des années, les propriétaires d'entreprise devaient compter sur leur mémoire pour personnaliser la façon dont ils servaient leur clientèle. Lorsque Mme Jones est entrée, un propriétaire de magasin devait se rappeler ce qu'elle avait acheté la dernière fois, si elle avait fini par le rapporter ou non et si elle s'en était plainte lors de sa dernière visite.

Désormais, grâce au Big Data, des tonnes de données clients et commerciales sont à portée de main. Vous savez où vit Mme Jones, ce qu'elle a acheté au cours des 10 dernières années, combien elle a dépensé, à quelle fréquence elle retourne des articles et des dizaines d'autres mesures. À l'aide de l'apprentissage automatique, vous pouvez transformer ces données et d'autres en informations utiles à l'entreprise. Voici une ventilation du Big Data et de l'apprentissage automatique et comment vous pouvez les exploiter pour propulser votre entreprise.

Qu'est-ce que le big data et l'apprentissage automatique ?

Le Big Data et l'apprentissage automatique sont différents mais intimement liés.

Qu'est-ce que les mégadonnées ?

Les mégadonnées font référence à des ensembles de données énormes ou incroyablement complexes qui peuvent être impossibles à exploiter sans outils spécialisés. Certaines entreprises n'ont jamais à gérer le Big Data. Par exemple, si vous avez un restaurant avec trois emplacements produisant des données sur les ventes et les stocks, ce n'est pas du "big data".

D'un autre côté, si ce même restaurant ajoute 10 emplacements supplémentaires et une application mobile qui permet aux clients de passer des commandes en ligne, de profiter de récompenses de fidélité et de discuter avec un représentant du service client par SMS, vous avez maintenant une situation de données volumineuses. L'application seule peut produire des données concernant :

  • Les repas que les clients commandent le plus souvent
  • Les moments de la journée où les clients passent leurs commandes
  • Où les clients commandent de la nourriture en fonction des données de géolocalisation
  • Où vivent les clients et les statistiques d'achat associées à chaque ville
  • Données sur les ventes de chaque emplacement
  • Comment les clients utilisent leurs points de fidélité
  • Données d'achat pendant les périodes de pointe et de vacances

Ces exemples ne font qu'effleurer la surface. Ce type d'application pourrait générer des dizaines d'ensembles de données. De plus, les informations seraient diffusées de manière quasi constante. C'est du big data.

Qu'est-ce que l'apprentissage automatique ?

L'apprentissage automatique (ML) fait référence à l'utilisation d'ordinateurs pour reconnaître des modèles dans les données. Pour ce faire, l'apprentissage automatique utilise des algorithmes, qui sont des ensembles d'instructions présentées étape par étape. Un modèle d'apprentissage automatique utilise les étapes d'un algorithme pour apprendre des modèles. Cela inclut également de reconnaître quand les modèles sont brisés et d'apprendre à comparer les modèles les uns aux autres.

À titre d'exemple simple, supposons que vous souhaitiez créer un algorithme d'apprentissage automatique pour analyser les données de vente. Vous avez cinq ans de chiffre d'affaires. Votre objectif est de maximiser les profits de l'été en déterminant quels produits vous devriez proposer à la vente entre juin et août.

Vous pouvez programmer votre système d'apprentissage automatique pour :

  • Agrégez les données de ventes pour chacun de vos produits, mois par mois.
  • Identifiez les produits qui ont le volume de ventes le plus élevé entre juin et août.
  • Prédisez les ventes associées à l'offre de chaque produit.
  • Vous dire quels produits offrir et si vous devriez les offrir en juin, juillet, août ou pendant les trois mois.

Bien sûr, vous pouvez aller plus loin dans le ML et intégrer votre coût des marchandises vendues (COGS) pour chaque produit, y compris l'expédition, la main-d'œuvre, le stockage et d'autres données. Ensuite, votre modèle ML pourrait non seulement recommander les produits qui ont le volume de ventes d'été le plus élevé, mais il peut également vous indiquer ceux qui génèrent le plus de bénéfices nets.

Vous pouvez ensuite utiliser le même modèle pour fournir des informations sur les ventes pour :

  • Produits individuels au cours d'une année
  • Nouveaux produits destinés à des marchés cibles similaires
  • Tous les autres mois de l'année

Qu'est-ce que l'apprentissage automatique dans le Big Data ?

Dans le contexte du Big Data, chaque fois qu'il peut y avoir des modèles dans les données, vous pouvez utiliser l'apprentissage automatique pour les découvrir et fournir des informations utiles. En outre, vous pouvez utiliser ML pour faire des recommandations basées sur les modèles analysés par les algorithmes.

Comment fonctionne l'apprentissage automatique avec le Big Data

L'une des applications les plus populaires de l'apprentissage automatique est celle des véhicules autonomes. La voiture utilise l'apprentissage automatique pour décider quoi faire par rapport aux données qu'elle recueille de son environnement et des autres véhicules.

Par exemple, lorsque les caméras à l'intérieur d'un véhicule autonome « ​​voient » un panneau d'arrêt, elles peuvent le reconnaître comme tel et appliquer automatiquement les freins. Le processus derrière cette décision a très probablement commencé avec un groupe de scientifiques des données testant plusieurs algorithmes d'apprentissage automatique. À un niveau élevé, cela prend trois étapes :

1. Formation

Pour analyser les mégadonnées, les scientifiques des données utilisent d'abord un ensemble d'entraînement pour enseigner à un ou plusieurs algorithmes ce qu'ils doivent rechercher.

Par exemple, avec un panneau d'arrêt, l'ensemble d'apprentissage serait composé de milliers d'images de panneaux d'arrêt. Les ingénieurs de données présenteraient des images de panneaux d'arrêt sous différents angles, sous différents éclairages, et même avec des arbres ou d'autres objets les bloquant partiellement.

À la fin de la phase de formation, l'espoir est que l'algorithme a identifié des modèles dans les formes et les couleurs des panneaux d'arrêt. En d'autres termes, il sait à quoi « ressemble » un panneau d'arrêt, sous différents éclairages et sous différents angles.

2. Validation

L'ensemble de validation est utilisé pour déterminer la précision du modèle ML à l'aide d'un ensemble de données volumineuses complètement différent. L'objectif de la phase de validation est de découvrir des moyens d'affiner le modèle ML.

Par exemple, supposons que le modèle ML conçu pour identifier les panneaux d'arrêt soit précis à 95 % et que toutes les images erronées soient très sombres. Les développeurs pourraient alors utiliser une autre formule qui augmente le contraste de chaque image, rendant les caractéristiques importantes plus faciles à voir pour le modèle ML.

3. Tests

La phase de test consiste à alimenter le modèle ML avec plus de données volumineuses complètement différentes de ce qu'il a vu pendant les phases de formation et de validation.

Par exemple, pour tester le modèle de panneau d'arrêt, les programmeurs pourraient montrer au modèle ML 250 000 images de différents types de panneaux, dont certains sont des panneaux d'arrêt. Ils analysaient ensuite les résultats pour voir avec quelle précision le modèle était capable de différencier les panneaux d'arrêt, ainsi que d'éviter de mal identifier d'autres types de panneaux.

Les défis de l'apprentissage automatique et du big data

L'inexactitude et les dilemmes éthiques sont deux des défis les plus redoutables auxquels sont confrontés les scientifiques des données qui utilisent le ML pour étudier les mégadonnées.

1. Inexactitude

Naturellement, même avec des processus de calcul avancés impliqués, vous passerez toujours par un élément d'essais et d'erreurs chaque fois que vous utiliserez l'apprentissage automatique dans l'analyse de données volumineuses. En effet, vous ne savez jamais quels facteurs pourraient fausser vos résultats lorsque vous entraînez, validez et testez votre modèle.

Par exemple, lors de l'identification d'images, telles que des panneaux d'arrêt ou des visages humains, plusieurs facteurs peuvent contribuer à la mauvaise performance de votre modèle ML. Par exemple, supposons que vous développiez un modèle d'apprentissage automatique pour améliorer le système de sécurité de votre entreprise. Plus précisément, vous voulez un modèle capable d'identifier les visages des cadres et d'autres personnes de haut rang afin qu'ils puissent accéder aux zones sensibles du bâtiment. Pendant la phase de validation, le système n'est précis qu'à environ 65 %. Mais cela pourrait être dû à plusieurs variables, telles que :

  • Images pixélisées de visages
  • Images floues
  • La personne qui détourne le regard pendant le scan facial
  • L'individu décidant de porter des lunettes de soleil, un masque facial, une écharpe ou autre chose qui pourrait fausser les résultats d'identification

2. Dilemmes éthiques

Il y a aussi des défis éthiques. Par exemple, supposons qu'un service RH utilise l'apprentissage automatique pour identifier les candidats les plus qualifiés, en les extrayant d'une pile numérique de 1 500 CV.

Si le modèle ML a été formé à l'aide d'entreprises et de services d'embauche dirigés uniquement par des hommes, les données peuvent inclure des biais. Certains hommes peuvent être plus enclins à embaucher d'autres hommes, pour des raisons autres que leurs mérites ou leurs qualifications. Par conséquent, le candidat "réussi" que les ingénieurs ont formé le modèle ML à rechercher peut, dans la plupart des cas, être un homme. En conséquence, le modèle recommande des hommes plutôt que des femmes qui auraient pu être plus qualifiées.

Dans un contexte commercial, comment le big data et le machine learning sont-ils liés ?

Dans un contexte commercial, le machine learning utilise les mégadonnées produites par votre organisation pour améliorer ou automatiser les processus critiques de l'entreprise et renforcer la sécurité et la sûreté. Les applications potentielles sont littéralement infinies et aussi diverses que les différents types de données que vous produisez.

Par exemple, une usine ou un site de production pourrait utiliser l'apprentissage automatique pour optimiser les niveaux de température et d'humidité de son usine. Par exemple, les modèles d'apprentissage automatique peuvent déterminer :

  • Les niveaux de température et d'humidité qui maximisent la productivité des employés tout en minimisant le nombre de pauses imprévues qu'ils doivent prendre
  • Les niveaux de température et d'humidité idéaux pour les équipements sensibles qui pourraient se détériorer plus rapidement dans de mauvaises conditions
  • Les conditions de température et d'humidité les plus rentables, compte tenu des frais d'exploitation des systèmes CVC et des déshumidificateurs

Le système pourrait alors être utilisé pour contrôler automatiquement votre système atmosphérique afin d'obtenir des résultats optimaux.

Comment l'apprentissage automatique et l'analyse de données volumineuses sont-ils utilisés dans le marketing ?

Le marketing offre certaines des applications les plus prometteuses de l'apprentissage automatique et de l'analyse des mégadonnées. Prenons l'exemple concret suivant.

Albert de Harley Davidson augmente ses prospects de 2 930 %

Harley Davidson a construit un robot nommé Albert qui utilise l'apprentissage automatique pour prendre des décisions marketing [1] . C'est ainsi qu'Albert a aidé les dirigeants de Harley Davidson à s'envoler vers un coucher de soleil plus lumineux.

Harley Davidson souhaitait tirer parti de ses relations existantes avec ses anciens clients. Ils ont utilisé Albert pour analyser :

  • Combien de fois les gens ont fait des achats
  • Combien ces clients ont dépensé
  • Combien de temps les clients ont-ils passé à naviguer sur le site Web de Harley Davidson

Albert a ensuite utilisé ces données pour séparer les clients en différents segments. L'équipe marketing a ensuite créé des campagnes de test pour chaque catégorie de clients. Après avoir testé le succès de la campagne, l'équipe l'a élargie pour impliquer un large éventail d'anciens clients.

En conséquence, Harley Davidson a augmenté ses ventes de 40 %. Ils ont également généré 2 930 % de prospects en plus. La moitié de ces pistes ont été directement identifiées par Albert lui-même. Albert a étudié les profils de prospects qui étaient très susceptibles de se convertir en clients payants, puis a étudié les profils de données d'autres utilisateurs et a identifié des « sosies », ou des personnes qui ont beaucoup en commun avec les clients à forte conversion.

Que vous essayiez de déterminer ce que Mme Jones achètera ensuite ou d'optimiser l'efficacité d'une installation de production complexe, l'apprentissage automatique peut transformer des mégadonnées apparemment aléatoires en informations transformationnelles. Avec un peu de remue-méninges et une réflexion créative, vous pouvez trouver des moyens d'utiliser le ML et le Big Data pour dépasser la concurrence et faire passer votre organisation au niveau supérieur.

Vous voulez en savoir plus sur les outils qui peuvent aider avec le Big Data ?

Les logiciels de Big Data peuvent contribuer à garantir que votre entreprise tire le meilleur parti de ses données et de ses analyses. Parcourez et comparez certains des meilleurs outils, lisez les avis et trouvez la meilleure solution pour les besoins spécifiques de votre entreprise.


Sources

1. Harley Davidson NYC bat tous les records avec Albert, Albert.ai