6 formas en que puede usar Deep Learning para mejorar la usabilidad de los dispositivos móviles
Publicado: 2020-01-23Con una mayor demanda global de experiencias móviles mejoradas y más personalizadas, la IA generalizada y la adaptación del aprendizaje profundo en la industria del desarrollo de aplicaciones móviles son inevitables. Olvídese de los frustrantes problemas de latencia que surgen con la detección móvil y la computación en la nube. La latencia casi nula está a la vuelta de la esquina, con velocidades de procesamiento de datos en tiempo real para ofrecer resultados óptimos.
Los chips avanzados para teléfonos inteligentes Bionic de Apple con unidades de procesamiento neuronal integradas ya ayudan a que las redes neuronales se ejecuten directamente en el dispositivo a velocidades increíbles. Utilizando las plataformas Core ML de Apple y ML Kit de Google y bibliotecas de aprendizaje profundo como TensorFlow Lite y Keras, los desarrolladores móviles pueden crear aplicaciones con menor latencia, menos errores y un procesamiento de datos más rápido.
La principal ventaja del aprendizaje automático en el dispositivo es que ofrece a los usuarios una experiencia de usuario perfecta y precisa. Como no se trata de enviar datos a servidores externos para su procesamiento, obtiene una mejor protección de datos y seguridad y privacidad del usuario. Además, con las redes neuronales en los dispositivos móviles, no necesita conectarse a Internet para acceder a todas las funciones de sus aplicaciones. Por supuesto, seguirá necesitando Internet para la mayoría de las funciones estándar.
6 formas de implementar el aprendizaje profundo en dispositivos móviles
Sin duda, hacer uso de las capacidades informáticas de los dispositivos móviles para implementar algoritmos de aprendizaje profundo ha mejorado la usabilidad de los dispositivos móviles. Así es cómo:
1. Reconocimiento de voz en el dispositivo
El reconocimiento de voz implica transformar o transducir secuencias de entrada en secuencias de salida utilizando redes neuronales recurrentes (RNN), redes neuronales convolucionales (CNN), redes neuronales profundas (DNN) y otras arquitecturas. Los desarrolladores lucharon con el problema de la latencia, que crea retrasos entre su solicitud y la respuesta del asistente automático, pero ahora podemos solucionarlo utilizando la tecnología de transductor de red neuronal recurrente compacta (RNN-T) en dispositivos móviles.
Los RNN-T son modelos de secuencia a secuencia. Sin embargo, en lugar de seguir el método habitual de procesar una secuencia de entrada completa antes de producir una salida, mantienen una continuidad constante en su procesamiento de entrada y transmisión de salida. Esto facilita el reconocimiento y procesamiento de voz en tiempo real. Verá esto con el Asistente de Google, que puede procesar comandos de voz consecutivos sin vacilar y sin necesidad de que invoque "Hola, Google" después de cada solicitud.
Hace que la conversación sea más natural y bidireccional, y el Asistente seguirá tus instrucciones al pie de la letra. ¿Quieres que establezca un asunto de correo electrónico, encuentre una foto en una de tus carpetas y te guíe a la casa de tu hermana? Se hace.
En el futuro con el nuevo Pixel 4 de Google, su función Live Caption puede proporcionar subtítulos para notas de audio, podcasts y videos en tiempo real y, debido a que el procesamiento está en el dispositivo, también en modo avión. Entonces, por ejemplo, si aparece un video en su feed de Twitter, puede averiguar de qué se trata a partir de sus subtítulos, sin necesidad de activar el audio. Live Caption aún no funciona con música o con llamadas telefónicas y videollamadas.
2. Mayor eficiencia con reconocimiento de gestos
Con los modelos de canalización de aprendizaje automático en el dispositivo, puede entrenar su dispositivo móvil para detectar, rastrear y reconocer los gestos de las manos y el cuerpo. La cámara de su dispositivo registra y almacena sus gestos y movimientos como datos de imágenes en 3D. Los algoritmos de aprendizaje profundo de las redes neuronales luego usan esta biblioteca de gestos para identificar y descifrar gestos estáticos y dinámicos específicos. Luego los emparejan en tiempo real con su intención y ejecutan los comandos deseados.
Los teléfonos inteligentes Google Pixel 4 vienen con el chip Soli que facilita la interacción compleja y no verbal con su teléfono. Este sensor de radar en miniatura en la parte superior del teléfono alimenta la tecnología Motion Sense que puede detectar su presencia y los gestos con las manos y el cuerpo para permitir las interacciones con su teléfono. Con un movimiento de la mano, sin siquiera tocar el teléfono, puede indicarle que descanse, silencie una alarma o vaya a la siguiente canción de su lista de reproducción.
3. Capacidades inmersivas de la Realidad Aumentada
Utilizando las plataformas ARCore de Google y ARKit de Apple, los desarrolladores pueden crear aplicaciones de realidad aumentada que pueden yuxtaponer objetos y entornos digitales con entornos de la vida real . Las capacidades inmersivas de la realidad aumentada basada en teléfonos están teniendo un impacto significativo en el comercio minorista, el entretenimiento, los viajes y otras industrias. Marcas como Lacoste y Sephora ahora permiten a sus clientes probar o ver una vista previa de los productos con aplicaciones de realidad aumentada, y un número creciente de compradores prefieren ver los productos en sus teléfonos antes de tomar la decisión de comprarlos.
Los juegos interactivos de realidad aumentada como Pokémon, Ingress y Ghostbusters World han recibido una gran cantidad de prensa y seguidores dedicados. Si desea orientarse por la ciudad, Google Maps Live View le proporcionará navegación en tiempo real.
4. Fotografías de mayor calidad
La alta calidad de las fotografías es un criterio importante para los compradores al seleccionar teléfonos inteligentes, que pueden obtener con muchos de los últimos modelos. Estos vienen equipados con los componentes de hardware (unidades centrales de procesamiento (CPU), procesadores de señal de imagen, algoritmos de imagen de aprendizaje profundo y unidades de procesamiento neuronal) que han catapultado a los teléfonos inteligentes a un ámbito completamente diferente al de las cámaras tradicionales cuando se trata de tomar fotografías. Con estos, los teléfonos inteligentes pueden mostrar más conciencia a nivel de clasificación de píxeles de lo que están viendo para tomar fotografías de alta definición.

Los teléfonos Google Pixel y los iPhone de Apple utilizan varias cámaras y complejos algoritmos de aprendizaje automático para reconocer personas y objetos, crear mapas de profundidad, unir sin problemas exposiciones prolongadas y calcular el balance de color preciso .
Al entrenar redes neuronales en un conjunto de datos de imágenes, los algoritmos aprenden cómo responder a los requisitos de imágenes individuales y retocar fotografías en tiempo real. Desarrollado por investigadores del MIT y Google, el sistema de retoque automático permite a los fotógrafos aplicar diferentes estilos a una imagen incluso antes de tomar la foto.
Después de que una red convolucional lleva a cabo el procesamiento de imágenes a baja resolución, un método de mapeo conocido como transformación de color afín modifica los colores de los píxeles de la imagen. La red almacena estas fórmulas de transformación en una cuadrícula 3D que luego permite una salida de imagen de alta resolución. Todo ocurre en milisegundos.
Los teléfonos inteligentes ahora también están superando a las DSLR en fotografía nocturna y con poca luz. Al incorporar sensores y redes neuronales profundas, las cámaras de los teléfonos inteligentes pueden capturar imágenes más nítidas con más colores de los que el ojo humano puede percibir.
Huawei, que introdujo tomas viables con poca luz con su P20 Pro, utiliza filtros RYYB, sensores grandes y procesamiento de imágenes AI en su serie Mate 30 para ofrecer fotografías de alta calidad con poca luz, así como videografía con poca luz. Google Pixel 4 viene con el modo Night Sight que puede tomar fotografías en el rango de 0.3-3 lux, y su astrofotografía puede capturar un cielo oscuro y estrellado. Junto con un modo nocturno que se activa automáticamente en la oscuridad, el nuevo sistema Deep Fusion de Apple se ajustará a los niveles de luz y llevará la fotografía del iPhone a un nivel más impresionante.
Incluso si no tiene conocimientos de fotografía, podrá tomar excelentes fotos con estos teléfonos inteligentes.
5. Mayor seguridad y privacidad
Cumplir con las Regulaciones generales de protección de datos (GDPR) y la Ley de privacidad del consumidor de California (CCPA) se ha vuelto más fácil con el aprendizaje automático en el dispositivo. Garantiza la seguridad de los datos, ya que no necesita cargar datos biométricos, cifrado o subtítulos en vivo a un servidor o una nube para su procesamiento.
El cifrado automático en el dispositivo es otra característica útil del teléfono inteligente que protege su contenido con un PIN, contraseña o patrón y permite el acceso a sus datos solo cuando desbloquea su teléfono. Por lo tanto, si pierde su dispositivo o se lo roban, la posibilidad de que alguien obtenga sus datos es insignificante.
La función Face ID del iPhone es un ejemplo de una experiencia de teléfono inteligente más segura. Las redes neuronales del dispositivo en los chips de los teléfonos inteligentes de Apple procesan y almacenan de forma segura los datos faciales de los usuarios. La identificación ocurre en su dispositivo, por lo que su privacidad y seguridad permanecen sin obstáculos.
La tecnología Face Unlock de Google Pixel 4, facilitada por el chip Soli, utiliza el mapeo de profundidad IR 3D para crear sus modelos faciales para el reconocimiento facial y los almacena en un chip de seguridad Titan M6 en el dispositivo. Face Unlock funciona bien con la aplicación 1Password para ofrecer a los usuarios seguridad biométrica al eliminar las posibilidades de fraude de identidad. Para configurar la aplicación 1Password en Pixel 4, solo necesita ingresar sus datos en Autocompletar y usar Face Unlock para iniciar sesión en lugar de la función Fingerprint Unlock.
6. Más precisión en el reconocimiento de imágenes
Al combinar el aprendizaje automático en el dispositivo con la tecnología de clasificación de imágenes, puede identificar y obtener información detallada en tiempo real sobre casi cualquier cosa que encuentre. ¿Quieres leer un texto en un idioma extranjero? Escanéelo con su teléfono para obtener una traducción instantánea y precisa. ¿Te llamó la atención un atuendo o un mueble? Escanéelo para obtener información sobre el precio y dónde puede comprarlo. ¿Hay un nuevo plato tentador en el menú de un restaurante? Puedes utilizar tu teléfono para conocer sus ingredientes e información nutricional.
Al facilitar el reconocimiento de imágenes en tiempo real, las aplicaciones como Google Lens, Calorie Mama y Leafsnap aumentan la facilidad de uso y aprendizaje de los dispositivos móviles y mejoran la experiencia del usuario.
Aprendizaje profundo en dispositivos móviles: reflexiones finales
Las posibilidades del aprendizaje automático en el dispositivo son inmensas. Con algoritmos inteligentes cada vez más eficientes, redes neuronales más profundas y chips de IA más potentes, las aplicaciones móviles de aprendizaje profundo serán estándar en la banca, el comercio minorista, la atención médica, el análisis de datos, la tecnología de la información, las telecomunicaciones, la industria aeroespacial y otras industrias.
Según Verified Market Research, es probable que el mercado mundial de aprendizaje profundo alcance los 26 640 millones de dólares para 2026, y el mercado de tecnología de conjuntos de chips de aprendizaje profundo alcance los 2900 millones de dólares. A medida que las capacidades de aprendizaje profundo continúen mejorando, las características de usabilidad de los dispositivos móviles evolucionarán e impulsarán más innovaciones.
¿Listo para su próximo proyecto de software? ¡Póngase en contacto con nosotros!