6 façons d'utiliser le Deep Learning pour améliorer la convivialité des appareils mobiles
Publié: 2020-01-23Avec une demande mondiale croissante pour des expériences mobiles améliorées et plus personnalisées, une adaptation généralisée de l'IA et de l'apprentissage en profondeur dans l'industrie du développement d'applications mobiles est inévitable. Oubliez les problèmes de latence frustrants qui surviennent avec la détection mobile et le cloud computing. La latence proche de zéro est proche, avec des vitesses de traitement des données en temps réel pour fournir des résultats optimaux.
Les puces de smartphone Bionic avancées d'Apple avec des unités de traitement neuronales intégrées aident déjà les réseaux neuronaux à fonctionner directement sur l'appareil à des vitesses incroyables. En utilisant les plates-formes Core ML d'Apple et ML Kit de Google et des bibliothèques d'apprentissage en profondeur telles que TensorFlow Lite et Keras, les développeurs mobiles peuvent créer des applications avec une latence plus faible, moins d'erreurs et un traitement des données plus rapide.
Le principal avantage de l'apprentissage automatique sur appareil est qu'il offre aux utilisateurs une expérience utilisateur transparente et précise. Comme il n'est pas question d'envoyer des données à des serveurs externes pour traitement, vous bénéficiez d'une meilleure protection des données et de la sécurité et de la confidentialité des utilisateurs. De plus, avec les réseaux de neurones sur les appareils mobiles, vous n'avez pas besoin de vous connecter à Internet pour accéder à toutes les fonctionnalités de vos applications. Bien sûr, vous aurez toujours besoin d'Internet pour la plupart des fonctionnalités standard.
6 façons de déployer le deep learning sur les appareils mobiles
L'utilisation des capacités informatiques des appareils mobiles pour mettre en œuvre des algorithmes d'apprentissage en profondeur a sans aucun doute amélioré la convivialité des appareils mobiles. Voici comment:
1. Reconnaissance vocale sur l'appareil
La reconnaissance vocale consiste à transformer ou à transduire des séquences d'entrée en séquences de sortie à l'aide de réseaux de neurones récurrents (RNN), de réseaux de neurones convolutionnels (CNN), de réseaux de neurones profonds (DNN) et d'autres architectures. Les développeurs ont eu du mal avec le problème de la latence - qui crée des retards entre votre demande et la réponse de l'assistant automatisé - mais nous pouvons maintenant le contourner en utilisant la technologie de transducteur de réseau neuronal récurrent compact (RNN-T) dans les appareils mobiles.
Les RNN-T sont des modèles séquence à séquence. Plutôt que de suivre la méthode habituelle de traitement d'une séquence d'entrée entière avant de produire une sortie, cependant, ils maintiennent une continuité constante dans leur traitement d'entrée et leur flux de sortie. Cela facilite la reconnaissance et le traitement de la parole en temps réel. Vous voyez cela avec Google Assistant, qui peut traiter des commandes vocales consécutives sans faiblir et sans vous obliger à appeler « Hey, Google » après chaque demande.
Cela permet une conversation bidirectionnelle plus naturelle, et l'assistant suivra vos instructions jusqu'au bout. Vous voulez qu'il définisse un sujet d'e-mail, trouve une photo dans l'un de vos dossiers et vous guide jusqu'à la maison de votre sœur ? C'est fait.
À l'avenir avec le nouveau Pixel 4 de Google, sa fonction Live Caption peut fournir des sous-titres aux notes audio, aux podcasts et aux vidéos en temps réel et - parce que le traitement est sur l'appareil - en mode avion également. Ainsi, par exemple, si une vidéo apparaît dans votre flux Twitter, vous pouvez savoir de quoi il s'agit à partir de ses sous-titres, sans avoir besoin de désactiver le son. Live Caption ne fonctionne pas encore avec la musique ou avec les appels téléphoniques et vidéo.
2. Efficacité accrue avec la reconnaissance gestuelle
Avec les modèles de pipeline d'apprentissage automatique sur appareil, vous pouvez entraîner votre appareil mobile à détecter, suivre et reconnaître les gestes de la main et du corps. La caméra de votre appareil enregistre et stocke vos gestes et vos mouvements sous forme de données d'image 3D. Les algorithmes d'apprentissage en profondeur des réseaux de neurones utilisent ensuite cette bibliothèque de gestes pour identifier et déchiffrer des gestes statiques et dynamiques spécifiques. Ils les associent ensuite en temps réel à votre intention et exécutent les commandes souhaitées.
Les smartphones Google Pixel 4 sont livrés avec la puce Soli qui facilite les interactions complexes et non verbales avec votre téléphone. Ce capteur radar miniature en haut du téléphone alimente la technologie Motion Sense qui peut détecter votre présence et les gestes de la main et du corps pour permettre vos interactions téléphoniques. D'un geste de la main, sans même toucher le téléphone, vous pouvez lui dire de s'endormir, de désactiver une alarme ou de passer à la chanson suivante de votre liste de lecture.
3. Capacités immersives de la réalité augmentée
À l'aide des plates-formes ARCore de Google et ARKit d'Apple, les développeurs peuvent créer des applications de réalité augmentée capables de juxtaposer des objets et des environnements numériques avec des paramètres réels . Les capacités immersives de la réalité augmentée par téléphone ont un impact significatif sur le commerce de détail, le divertissement, les voyages et d'autres secteurs. Des marques comme Lacoste et Sephora permettent désormais à leurs clients d'essayer ou de prévisualiser des produits avec des applications de réalité augmentée, et un nombre croissant d'acheteurs préfèrent vérifier les produits sur leur téléphone avant de prendre la décision de les acheter.
Les jeux interactifs de réalité augmentée tels que Pokemon, Ingress et Ghostbusters World ont fait l'objet d'une large presse et d'un public dévoué. Si vous souhaitez vous repérer dans la ville, Google Maps Live View vous fournira une navigation en temps réel.
4. Photographies de meilleure qualité
La haute qualité photo est un critère important pour les acheteurs lors de la sélection des smartphones, qu'ils peuvent obtenir avec la plupart des derniers modèles. Ceux-ci sont équipés des composants matériels - unités centrales de traitement (CPU), processeurs de signaux d'image, algorithmes d'apprentissage en profondeur et unités de traitement neuronal - qui ont catapulté les smartphones dans un domaine totalement différent des appareils photo traditionnels lorsqu'il s'agit de prendre des photos. Avec ceux-ci, les smartphones peuvent montrer plus de conscience au niveau de la classification des pixels de ce qu'ils voient pour prendre des photos haute définition.

Les téléphones Google Pixel et les iPhone d'Apple utilisent plusieurs caméras et des algorithmes complexes d'apprentissage automatique pour reconnaître les personnes et les objets, créer des cartes de profondeur, joindre de manière transparente les longues expositions et calculer une balance des couleurs précise .
En formant des réseaux de neurones sur un ensemble de données d'images, les algorithmes apprennent à répondre aux exigences d'image individuelles et à retoucher les photographies en temps réel. Développé par des chercheurs du MIT et de Google, le système de retouche automatique permet aux photographes d'appliquer différents styles à une image avant même de prendre la photo.
Après qu'un réseau convolutif ait effectué le traitement d'image à basse résolution, une méthode de cartographie connue sous le nom de transformation de couleur affine modifie les couleurs des pixels de l'image. Le réseau stocke ces formules de transformation dans une grille 3D qui permet ensuite une sortie d'image haute résolution. Tout se passe en quelques millisecondes.
Les smartphones dépassent désormais également les reflex numériques en matière de photographie en basse lumière et de nuit. En incorporant des réseaux de neurones profonds et des capteurs, les caméras des smartphones peuvent capturer des images plus nettes avec plus de couleurs que l'œil humain ne peut percevoir.
Huawei, qui a introduit des prises de vue en basse lumière exploitables avec son P20 Pro, utilise des filtres RYYB, de grands capteurs et un traitement d'image AI dans sa série Mate 30 pour offrir une photographie de haute qualité en basse lumière ainsi qu'une vidéographie en basse lumière. Le Google Pixel 4 est livré avec le mode Night Sight qui peut prendre des photos dans la plage de 0,3 à 3 lux, et son astrophotographie peut capturer un ciel sombre et étoilé. En plus d'un mode nuit qui s'active automatiquement dans l'obscurité, le nouveau système Deep Fusion d'Apple s'adaptera aux niveaux de lumière et amènera la photographie sur iPhone à un niveau plus impressionnant.
Même si vous n'avez aucune compréhension de la photographie, vous pourrez prendre de superbes photos avec ces smartphones.
5. Sécurité et confidentialité accrues
Se conformer au Règlement général sur la protection des données (RGPD) et au California Consumer Privacy Act (CCPA) est devenu plus facile grâce à l'apprentissage automatique sur l'appareil. Il garantit la sécurité des données, car vous n'avez pas besoin de télécharger des données pour la biométrie, le cryptage ou la légende en direct sur un serveur ou un cloud pour le traitement.
Le cryptage automatique sur l'appareil est une autre fonctionnalité utile du smartphone qui protège votre contenu avec un code PIN, un mot de passe ou un schéma et permet d'accéder à vos données uniquement lorsque vous déverrouillez votre téléphone. Ainsi, si vous perdez votre appareil ou s'il est volé, les chances que quelqu'un obtienne vos données sont négligeables.
La fonction Face ID de l'iPhone est un exemple d'expérience de smartphone plus sécurisée. Les réseaux de neurones intégrés à l'appareil dans les puces des smartphones Apple traitent et stockent en toute sécurité les données faciales des utilisateurs. L'identification se produit sur votre appareil, de sorte que votre vie privée et votre sécurité restent sans entrave.
La technologie Face Unlock de Google Pixel 4, facilitée par la puce Soli, utilise la cartographie de profondeur IR 3D pour créer vos modèles de visage pour la reconnaissance faciale et les stocke sur une puce de sécurité Titan M6 sur l'appareil. Face Unlock fonctionne bien avec l'application 1Password pour offrir aux utilisateurs une sécurité biométrique en éliminant les risques de fraude d'identité. Pour configurer l'application 1Password sur Pixel 4, il vous suffit de saisir vos informations dans le remplissage automatique et d'utiliser Face Unlock pour vous connecter au lieu de la fonction Fingerprint Unlock.
6. Plus de précision dans la reconnaissance d'image
En associant l'apprentissage automatique sur l'appareil à la technologie de classification d'images, vous pouvez identifier et obtenir des informations détaillées en temps réel sur presque tout ce que vous rencontrez. Vous voulez lire un texte en langue étrangère ? Scannez-le avec votre téléphone pour obtenir une traduction instantanée et précise. Une tenue ou un meuble vous a plu ? Scannez-le pour obtenir des informations sur le prix et où vous pouvez l'acheter. Y a-t-il un nouveau plat tentant sur un menu de restaurant ? Vous pouvez utiliser votre téléphone pour connaître ses ingrédients et ses informations nutritionnelles.
En facilitant la reconnaissance d'images en temps réel, des applications telles que Google Lens, Calorie Mama et Leafsnap augmentent la convivialité et l'apprentissage des appareils mobiles et améliorent l'expérience utilisateur.
Apprentissage en profondeur sur les appareils mobiles : dernières réflexions
Les possibilités de l'apprentissage automatique sur appareil sont immenses. Avec des algorithmes intelligents de plus en plus efficaces, des réseaux de neurones plus profonds et des puces d'intelligence artificielle plus puissantes, les applications mobiles d'apprentissage en profondeur seront la norme dans les secteurs de la banque, de la vente au détail, de la santé, de l'analyse de données, des technologies de l'information, des télécommunications, de l'aérospatiale et de divers autres secteurs.
Selon Verified Market Research, le marché mondial de l'apprentissage en profondeur devrait toucher 26,64 milliards de dollars d'ici 2026, le marché de la technologie des chipsets d'apprentissage en profondeur atteignant 2,9 milliards de dollars. À mesure que les capacités d'apprentissage en profondeur continueront de s'améliorer, les fonctionnalités d'utilisation des appareils mobiles évolueront parallèlement et alimenteront de nouvelles innovations.
Prêt pour votre prochain projet logiciel ? Prenez contact avec nous!