Apprentissage supervisé ou non supervisé : quel modèle d'apprentissage automatique vous convient le mieux ?

Publié: 2022-05-07

L'apprentissage automatique n'a pas à être mystificateur. Nous décomposerons les deux types les plus courants et leurs cas d'utilisation dans cet article.

Une personne et une machine partageant des données entre elles

En tant que chef d'entreprise, vous savez que l'adoption de nouvelles technologies peut atténuer les points faibles et rendre votre entreprise plus compétitive. C'est pourquoi, au cours d'une année de perturbations, de nombreuses entreprises se sont tournées vers la transformation numérique pour s'en sortir.

Vous êtes peut-être également conscient du potentiel des technologies émergentes telles que l'apprentissage automatique qui peuvent rendre votre entreprise pérenne. Mais attention, acheteur : si vous ne comprenez pas les applications de l'apprentissage automatique, vous risquez de gaspiller de l'argent sur des résultats inutilisables. Prenez l'exemple ci-dessous pour voir ce que nous voulons dire.

Afin de préparer la rédaction de cet article, nous avons utilisé un outil de génération de langage naturel (NLG) pour nous aider à comprendre comment décomposer au mieux l'apprentissage supervisé par rapport à l'apprentissage non supervisé. Voici un extrait de notre homologue NLG :

"Chaque modèle d'apprentissage non supervisé fournit des matrices de tensorong avancées basées sur le coefficient de corrélation, une réponse faussement positive, des données statistiquement utiles assez minimes (ou fortement dépendantes de celles-ci), est utilisé pour la réduction de la dimensionnalité à l'aide de graphiques et d'arbres pour générer leurs propres points de données limites."

Se sentir confus? Nous aussi. Mais malgré la syntaxe déconcertante des phrases de l'outil NLG, cette expérience d'intelligence artificielle (IA) n'a pas été complètement inutile. Cela nous a fait réaliser que lorsqu'il s'agit d'obtenir les meilleurs résultats de l'IA, il est important de trouver la bonne application. C'est exactement pourquoi nous avons écrit ce guide pour vous aider.

Nous avons parlé avec Thomas Wood, consultant en science des données pour Fast Data Science, et il a aidé à décomposer le sujet en termes faciles à comprendre. Avec l'aide de Wood, nous expliquerons la différence entre deux méthodes courantes d'apprentissage automatique, l'apprentissage supervisé et non supervisé, et quels cas d'utilisation sont les mieux adaptés à chaque méthode.

Nouveau dans l'apprentissage automatique ? Passez en revue ces concepts clés avant de plonger dans le reste de cet article :

L'apprentissage automatique (ML) est un sous-ensemble de l'intelligence artificielle (IA) qui résout des problèmes à l'aide d'algorithmes et de modèles statistiques pour extraire des connaissances à partir de données. D'une manière générale, tous les modèles d'apprentissage automatique peuvent être classés en apprentissage supervisé ou non supervisé.
Un algorithme d'apprentissage automatique est une procédure exécutée sur des données pour créer un modèle d'apprentissage automatique.
Un modèle d'apprentissage automatique est le résultat d'un algorithme d'apprentissage automatique exécuté sur des données. Cela signifie qu'un modèle représente ce qui a été appris par un algorithme d'apprentissage automatique.

Quelles sont les principales différences entre l'apprentissage supervisé et non supervisé ?

Si nous devions résumer cela en une phrase, ce serait celle-ci : la principale différence entre l'apprentissage supervisé et l'apprentissage non supervisé est que l'apprentissage supervisé utilise des données étiquetées pour aider à prédire les résultats, contrairement à l'apprentissage non supervisé.

Cependant, il existe des nuances supplémentaires entre les deux approches, que nous continuerons à clarifier afin que vous puissiez choisir la meilleure approche pour votre situation.

Comment fonctionne l'apprentissage automatique supervisé

Comme nous l'avons mentionné ci-dessus, l'apprentissage supervisé utilise des données étiquetées pour entraîner le modèle. Mais qu'est-ce que cela signifie en théorie ? Passons en revue quelques exemples pour commencer.

Avec l'apprentissage supervisé, le modèle reçoit à la fois des entrées et des sorties correspondantes. Supposons que nous entraînons le modèle à identifier et classer différents types de fruits. Dans cet exemple, vous fournirez plusieurs images de fruits en entrée, ainsi que leur forme, leur taille, leur couleur et leur profil de saveur. Ensuite, vous fournirez au modèle les noms de chaque fruit en sortie.

Finalement, l'algorithme trouvera un modèle entre les caractéristiques des fruits (les entrées) et leurs noms (les sorties). Une fois que cela se produit, le modèle peut recevoir une nouvelle entrée et il prédira la sortie pour vous. Ce type d'apprentissage supervisé, appelé classification , est le plus courant .

Comment fonctionne l'apprentissage automatique non supervisé

Au contraire, l'apprentissage non supervisé fonctionne en apprenant au modèle à identifier des modèles par lui-même (donc non supervisé ) à partir de données non étiquetées. Cela signifie qu'une entrée est fournie, mais pas une sortie.

Pour comprendre comment cela fonctionne, continuons avec l'exemple de fruit donné ci-dessus. Avec l'apprentissage non supervisé, vous fournirez au modèle l'ensemble de données d'entrée (les images des fruits et leurs caractéristiques), mais vous ne fournirez pas la sortie (les noms des fruits).

Le modèle utilisera un algorithme approprié pour s'entraîner à diviser les fruits en différents groupes selon les caractéristiques les plus similaires entre eux. Ce type d'apprentissage non supervisé, appelé clustering , est le plus courant.

Vous avez besoin de parcourir les deux modèles d'apprentissage automatique une fois de plus ? Regardez cette courte vidéo pour une explication de haut niveau :

Quand faut-il utiliser l'apprentissage supervisé par rapport à l'apprentissage non supervisé ?

Que vous deviez utiliser l'apprentissage supervisé ou non supervisé dépend de vos objectifs et de la structure et du volume des données dont vous disposez. Avant de prendre une décision, demandez à votre data scientist d'évaluer les éléments suivants :

Les données d'entrée sont-elles un ensemble de données non étiqueté ou étiqueté ? S'il n'y a pas de libellé, votre équipe peut-elle prendre en charge un libellé supplémentaire ?
Quel est l'objectif que vous souhaitez atteindre ? Travaillez-vous avec un problème récurrent et bien défini ou l'algorithme devra-t-il prévoir de nouveaux problèmes ?
Existe-t-il des algorithmes qui prennent en charge votre volume et votre structure de données ? Ont-ils la même dimensionnalité dont vous avez besoin (nombre de fonctionnalités ou d'attributs) ?

Quand utiliser l'apprentissage automatique supervisé

Selon Gartner, l'apprentissage supervisé est le type d'apprentissage automatique le plus populaire et le plus fréquemment utilisé dans les scénarios d'entreprise. C'est probablement parce que bien que la classification des mégadonnées puisse être un véritable défi dans l'apprentissage supervisé, les résultats sont très précis et dignes de confiance (source complète disponible pour les clients).

Voici quelques exemples de cas d'utilisation pour l'apprentissage supervisé. Certains sont spécifiques à l'industrie, tandis que d'autres peuvent s'appliquer à n'importe quelle organisation :

Identifier les facteurs de risque de maladies et planifier des mesures préventives
Classer si oui ou non un e-mail est un spam
Prédire les prix des maisons
Prédire le taux de désabonnement des clients
Prédire les précipitations et les conditions météorologiques
Savoir si un demandeur de prêt présente un risque faible ou élevé
Prédire la défaillance des pièces mécaniques des moteurs automobiles
Prédire les scores de partage sur les réseaux sociaux et les scores de performance

Wood nous a partagé un exemple de la façon dont il a utilisé l'apprentissage supervisé pour créer un système de triage des e-mails entrants d'un client. À l'aide d'un système CRM, les e-mails ont été classés en groupes représentant les requêtes courantes (par exemple, changement d'adresse du client, réclamations). Wood a ensuite utilisé ces catégories pour former un modèle afin que lorsqu'il reçoit un nouvel e-mail entrant, il sache à quelle catégorie attribuer cet e-mail. Il dit:

« L'apprentissage supervisé a été possible dans ce cas grâce à la présence du système CRM qui a fourni un ensemble d'« étiquettes » pour former le modèle. Sans cela, seul un apprentissage non supervisé aurait été possible.

Vous voulez nettoyer votre boîte de réception ? Démarrez avec le logiciel CRM.

Quand utiliser l'apprentissage automatique non supervisé

Contrairement à l'apprentissage supervisé, l'apprentissage non supervisé peut traiter de gros volumes de données en temps réel. Et parce que le modèle identifiera automatiquement la structure des données (classification), il est utile dans les cas où un humain aurait du mal à trouver par lui-même des tendances dans les données.

Par exemple, si vous essayez de segmenter les consommateurs potentiels en groupes à des fins de marketing, une méthode de regroupement non supervisée serait un excellent point de départ.

Voici quelques exemples de cas d'utilisation pour l'apprentissage non supervisé :

Regrouper les clients selon leur comportement d'achat
Trouver des corrélations dans les données client (par exemple, les personnes qui achètent un certain style de sac peuvent également être intéressées par un certain style de chaussures)
Segmentation des données par historique d'achat
Classer les personnes en fonction de différents intérêts
Regroupement des stocks par mesures de fabrication et de vente

Wood nous a expliqué qu'il avait déjà travaillé pour une société pharmaceutique avec des installations de fabrication dans le monde entier. Le logiciel utilisé par l'entreprise pour enregistrer les erreurs survenues dans ses installations ne disposait pas d'un menu déroulant proposant des options d'erreur courantes parmi lesquelles choisir.

Pour cette raison, les ouvriers d'usine ont documenté les erreurs en texte brut (soit en anglais, soit dans leur langue locale). L'entreprise souhaitait connaître les causes des problèmes de fabrication courants, mais sans une catégorisation des erreurs, il était impossible d'effectuer une analyse statistique des données.

Wood a utilisé un algorithme d'apprentissage non supervisé pour découvrir des points communs dans les erreurs. Il a pu identifier les thèmes les plus importants et produire des statistiques telles que des diagrammes circulaires des problèmes de fabrication courants dans l'entreprise. Bois dit :

"Cela a donné à l'entreprise une vue d'ensemble des problèmes de son entreprise qui, autrement, auraient nécessité un travail manuel considérable."

Préparez-vous pour un avenir intelligent : adoptez l'apprentissage automatique

L'apprentissage automatique est un outil puissant qui peut vous aider à résoudre des problèmes commerciaux et à prendre des décisions fondées sur des données. J'espère que cet article vous donnera quelques idées sur la façon dont l'apprentissage automatique supervisé ou non supervisé pourrait être mis en œuvre dans votre organisation.

Si vous êtes prêt à adopter la technologie d'apprentissage automatique, vos prochaines étapes devraient consister à évaluer les capacités de votre pile logicielle actuelle. Ensuite, demandez à votre ou vos fournisseurs des cas d'utilisation d'autres clients de votre secteur qui correspondent aux applications pour lesquelles vous souhaitez utiliser l'apprentissage automatique.

Vous avez l'impression qu'il y a plus à apprendre ? Consultez ces lectures connexes de Capterra :

Qu'est-ce que l'apprentissage automatique ? Votre glossaire essentiel de Business Intelligence
Le guide des petites entreprises averties sur l'apprentissage automatique par rapport à l'intelligence artificielle
Principales applications de l'intelligence artificielle pour les petites entreprises

Consultez également le répertoire des logiciels d'apprentissage automatique de Capterra, où vous pouvez lire les avis d'utilisateurs réels et filtrer les outils en fonction de leur prix ou de leurs fonctionnalités.