4 étapes faciles pour devenir un scientifique des données citoyen
Publié: 2022-05-07Qu'est-ce qu'un citoyen scientifique des données ?
Une personne qui peut faire (une partie) du travail de niveau data scientist, sans formation de data scientist.
Un travailleur qui peut utiliser un logiciel d'informatique décisionnelle pour faire du clustering, de la segmentation et du mélange avancé de données, même s'il n'a pas de doctorat en statistique.
Autrement dit? Un citoyen scientifique des données est la licorne de quartier amicale de chaque entreprise.
Si vous voulez une définition formelle, Gartner définit le Citizen Data Scientist (CDS) comme « une personne qui crée ou génère des modèles qui utilisent des analyses de diagnostic avancées ou des capacités prédictives et prescriptives, mais dont la fonction principale est en dehors du domaine des statistiques et de l'analyse. ”
Dans de nombreux cas, cela « en dehors du domaine des statistiques et de l'analyse » signifie que le CDS est un analyste commercial - un analyste commercial qui a appris à créer ces modèles de haut niveau à partir d'un mélange d'initiatives (si je peux trouver la variable x, je peut augmenter nos revenus) et le besoin (nos scientifiques des données sont aussi surmenés qu'un enseignant sans période de planification).
Alors que les scientifiques des données sont de plus en plus taxés de demandes visant à rendre une entreprise plus axée sur les données, les scientifiques des données citoyens peuvent aider leurs entreprises de deux manières principales :
- ils peuvent alléger la charge des data scientists en utilisant le bon logiciel de business intelligence pour effectuer les tâches de data science les plus simples.
- Ils peuvent apporter une perspective extérieure et commerciale à la science des données.
Heureusement, devenir un citoyen data scientist ne nécessite pas de diplôme, ni même une année complète de formation. Cela demande du travail, mais les avantages en valent la peine. Si vous souhaitez devenir un citoyen scientifique des données, voici quatre étapes qui peuvent vous aider à démarrer sur cette voie.
1. Demandez l'accès à davantage de nouvelles sources de données.
Si vous en avez assez de traiter les mêmes vieilles données provenant des mêmes vieux rapports, vous avez les démangeaisons du scientifique des données citoyen, et il est peut-être temps de demander à votre superviseur d'accéder à des données qui ne sont pas incluses dans vos rapports normaux. et informations.
Lorsque vous ouvrez l'accès aux données à des non-scientifiques des données, vous pouvez voir la force et les avantages qui découlent de la science des données citoyenne. En élargissant les données à un groupe tout à fait unique de scientifiques des données citoyens, IBM a transformé le tournoi de Wimbledon 2016 en une bibliothèque d'informations. Le géant de l'informatique a permis aux professionnels du tennis d'utiliser leur programme d'analyse de données, Watson Analytics. Le résultat a été un aperçu sans précédent des performances des joueurs. Watson Analytics a pu utiliser des points de données aussi petits que l'endroit où la balle a atterri pour déterminer si le style d'un joueur avait changé.
Élargir l'accès aux personnes sans diplôme en science des données était également étonnamment facile - plus facile, en fait, de former des athlètes professionnels à utiliser un logiciel de science des données que de former des scientifiques des données pour comprendre les subtilités du tennis de niveau professionnel. Mieux encore, cela signifiait qu'un groupe de personnes possédant des connaissances de niveau expert était en mesure de contribuer au domaine autrement inaccessible de la science des données.
2. Apprenez à utiliser un logiciel d'informatique décisionnelle avec des fonctionnalités d'analyse avancées et une découverte intelligente des données.
Une fois que vous avez les nouvelles sources de données pour de nouvelles informations, vous devez savoir comment utiliser les outils qui font de la science des données de haut niveau une possibilité pour quelqu'un sans doctorat en science des données ou en statistiques.
Quel type de fonctionnalités devriez-vous rechercher dans un logiciel qui peut vous aider en tant que scientifique citoyen des données ?
- Préparation avancée des données en libre-service
- Analyse comportementale
- Analyse graphique
- Analyse de localisation
- Analyses d'audience Internet
- Découverte intelligente des données
La préparation avancée des données en libre-service a déjà aidé Sears à transformer ses analystes de veille économique en scientifiques des données citoyens. Sears a investi dans la solution logicielle de découverte de données volumineuses de Platfora, donnant accès à 400 de ses analystes. En conséquence, les analystes ont pu utiliser la segmentation de la clientèle - normalement une action avancée de la science des données - pour améliorer les recommandations de produits pour les clients sur le site Web de Sears.
Le fournisseur de Business Intelligence Alteryx propose un outil visuel facile à utiliser pour effectuer des mélanges de données complexes. Plutôt que d'avoir à créer un nouvel ensemble de données pour incorporer différents types de données (par exemple, un fichier Excel et un fichier Oracle), vous pouvez utiliser la fonction glisser-déposer d'Alteryx pour réduire cette longue tâche de science des données en quelques clics. Souris.
Comme Platfora et Alteryx, le logiciel de Paxata fait de l'analyse de données avancée une réalité. J'ai parlé avec Farnaz Erfan de Paxata, qui a décrit comment l'un de leurs clients, une entreprise de biens de consommation emballés, a apporté des activités de niveau doctorat aux analystes.
Paxata a créé « un paradigme de libre-service complet pour les analystes », qui ne nécessitait pas l'aide de spécialistes des données. L'entreprise a utilisé la solution en libre-service pour améliorer les stocks, l'approvisionnement et le marketing. Par exemple, l'utilisation de Paxata "a réduit le temps nécessaire aux analystes commerciaux pour préparer les données sur le temps de transit de cinq heures par mois à moins d'une heure". Une autre source d'économies a été la capacité de "détecter la fraude par coupon en identifiant et en faisant correspondre les adresses e-mail incriminées".
Bien qu'apprendre à utiliser des analyses avancées offre de nombreux avantages, il y aura également une courbe d'apprentissage. Cela dit, ce n'est pas trop écrasant : selon l'estimation de Gartner, cela ne devrait prendre qu'une à deux semaines pour se mettre à niveau. La plupart des fournisseurs proposent des formations, des tutoriels et des forums communautaires avec des réponses aux questions courantes.
3. Assurez-vous que la gouvernance est en place
Mo' accès, mo' (gouvernance des données) problèmes. Ou cela pourrait être le cas, à moins que vous ne fassiez de la gouvernance une priorité. Avec plus de scientifiques citoyens des données accédant à plus d'ensembles de données, il y a plus de chances que les données tombent entre de mauvaises mains.
"La gouvernance des données est absolument essentielle", explique Werner Krebs, PDG de la société de conseil en science des données Acculation. "Vous devez former vos employés pour qu'ils comprennent que les données sont précieuses et les aider à leur fournir des outils et des cadres pour les aider à les collecter", poursuit-il. Heureusement, il existe plusieurs cadres pour organiser ces données, de la gestion de la qualité totale à ISO 9001 en passant par «les divers cadres six sigma».
Gartner met un accent similaire sur la gouvernance des données : "Une bonne gouvernance est cruciale, tout comme des conseils sur la façon de comprendre les données, leurs relations et leurs utilisations appropriées."
Il est très utile de permettre à davantage de personnes d'accéder à davantage de données, mais ces personnes doivent comprendre comment y accéder et comment les sécuriser (n'allez pas lire des documents sensibles dans une zone où le Wi-Fi public n'est pas sécurisé, par exemple ).
4. Assurez-vous que votre organisation a des « gardiens » qui surveillent la façon dont vous utilisez vos données
Un nouveau rôle comme citoyen scientifique des données nécessite de nouvelles règles et de nouveaux rôles pour le gérer. Les avantages que vous pouvez tirer d'une préparation avancée des données valent certainement la peine d'être repensés et réorganisés à l'échelle de l'entreprise. Cela dit, vous ne voulez pas vous débarrasser des anciens rôles de gestion des données.
Une règle empirique pour la gestion des données à l'ère de la science des données citoyenne est résumée par la vieille chanson des éclaireuses : faites-vous de nouveaux amis, mais gardez les anciens. En d'autres termes, conservez des rôles tels que gestionnaire de données et administrateur de base de données, mais ajoutez également de nouveaux rôles, comme l'idée de gardien de Gartner, pour vous assurer que les citoyens scientifiques des données peuvent utiliser ce dont ils ont besoin de manière responsable.
Gartner définit le rôle de « gardien » comme les personnes qui « s'assurent que les données peuvent être industrialisées, sûres et évolutives ». En d'autres termes, ce sont des personnes qui supervisent la sécurité des données et veillent également à ce que les exemples réussis de science des données citoyennes puissent être adoptés par l'ensemble de l'entreprise. Ils comblent également le fossé entre les rôles traditionnels de gestion des données (Gartner les appelle les « opérateurs ») et les scientifiques des données citoyens utilisant les données de nouvelles manières (« innovateurs »).
Comment avez-vous utilisé la science des données citoyennes ?
Jouez-vous le rôle d'un data scientist citoyen ? Avez-vous utilisé des analyses de données avancées pour aider votre entreprise à économiser de l'argent ou à gagner de l'argent ? Si oui, faites-le moi savoir dans les commentaires ci-dessous!