Cómo agregar soluciones de Machine Learning a su negocio usando AWS
Publicado: 2020-05-13El aprendizaje automático está en constante evolución y juega un papel muy importante en la economía global, ya que permite un análisis rápido y automático de grandes porciones de datos.
Para acercar aún más la tecnología de aprendizaje automático a los programadores, Amazon ofrece actualmente más de 10 servicios de aprendizaje automático e inteligencia artificial en su plataforma AWS. Con estos servicios, puede comenzar a construir modelos de manera simple, lo que puede llevar su negocio al siguiente nivel.
La mayoría de estos servicios están completamente administrados, lo que significa que para usarlos, no necesita ninguna experiencia de aprendizaje automático, ya que estas herramientas aprovechan modelos previamente entrenados para trabajar con datos. Según el problema de su negocio, puede elegir entre servicios de aprendizaje automático preentrenados en áreas como visión por computadora, procesamiento de lenguaje natural, recomendaciones y pronósticos. El siguiente gráfico muestra un flujo de trabajo de una solución de aprendizaje automático, junto con las herramientas de AWS que puede usar en cada una de las etapas.

Cómo aplicar Machine Learning a los negocios con AWS
En primer lugar: recopilar los datos
El elemento más importante en la creación de soluciones ML son los datos. Hay 3 tipos de datos: estructurados, semiestructurados y no estructurados.
- Los elementos de datos estructurados son direccionables y se pueden almacenar en una base de datos relacional. Este tipo de datos tiene un esquema predefinido. Un ejemplo de datos estructurados es una base de datos relacional con datos numéricos y de cadena (texto).
- Los conjuntos de datos semiestructurados no residen en bases de datos relacionales, pero tienen algunos elementos predefinidos (esquema) que los hacen más fáciles de analizar. Ejemplos de tipos de archivos de datos semiestructurados son XML, HTML, RDF o JSON.
- Los datos no estructurados son todo lo demás. Este tipo de datos no tiene una estructura predefinida y normalmente se almacenan como un conjunto de archivos. Los ejemplos de datos no estructurados más populares son documentos de texto, fotos, videos y archivos de audio y registros de aplicaciones.
Carga de datos: ¿qué es Kinesis?
El servicio de AWS Kinesis ingiere datos que se pueden generar continuamente desde varias fuentes, por ejemplo, aplicaciones web y móviles. Es un servicio de transmisión de datos en tiempo real que puede capturar muy rápidamente gigabytes de datos. Kinesis ofrece las siguientes herramientas:
- Kinesis Video Streaming : una herramienta que puede ayudarlo a transmitir videos desde dispositivos a AWS
- Kinesis Data Streaming : una herramienta que puede ayudarlo a recopilar datos como registros de TI, clics en sitios web o transacciones financieras
- Kinesis Data Firehose : una herramienta para cargar datos transmitidos en almacenes de datos (por ejemplo, S3, Redshift) o herramientas de análisis
- Kinesis Data Analytics : una herramienta que procesa datos transmitidos en tiempo real con SQL o Java
Carga de datos: ¿qué es Glue?
Otro servicio de AWS que puede ayudar con la carga de datos es Glue , que es administrado por Apache Spark . Es una herramienta de extracción, transformación y carga (ETL) que se puede usar para preparar datos antes de usarlos para análisis. Glue puede trabajar con datos estructurados y semiestructurados.
Los elementos de Glue son el catálogo de datos, el motor ETL y un programador. El catálogo de datos de Glue es la parte más importante de la herramienta. Guarda los metadatos sobre los datos dados, descubiertos automáticamente por rastreadores que revisan las fuentes de datos y detectan su esquema.
Los motores ETL pueden generar código Python y Scala para usar en el proceso ETL para usuarios que no son programadores. También puede procesar datos con un código proporcionado por el usuario. El programador puede monitorear trabajos, ejecutar tareas y desencadenarlas en función de algunos eventos (por ejemplo, a una hora específica todos los lunes o cuando otra tarea se completa o falla).
En segundo lugar: elegir las herramientas de aprendizaje automático adecuadas
Una vez que hayamos recopilado los datos que necesitamos, podemos comenzar a construir nuestras soluciones de ML. AWS ofrece algunas herramientas de aprendizaje automático que pueden procesar datos de varios tipos.
Echemos ahora un vistazo a cada una de estas herramientas y presentemos sus principales posibles áreas de aplicación en los negocios .
¿Qué es SageMaker?
SageMaker es más útil para los desarrolladores de aprendizaje automático y los científicos de datos. Este servicio es una solución completa que ayuda a llevar los modelos de aprendizaje automático desde el concepto hasta la producción con un esfuerzo mínimo. Amazon SageMaker tiene un amplio conjunto de herramientas (Ground Truth, Notebooks, Experiments, Debugger, Model Monitor, Neo) que pueden ayudar a etiquetar datos, crear, optimizar, entrenar, probar e implementar modelos.
Encontrar manualmente el algoritmo correcto para un problema determinado a menudo requiere horas de capacitación y pruebas. SageMaker tiene una opción de AutoPilot, que utiliza 50 modelos de ML preentrenados diferentes para encontrar automáticamente el mejor modelo de ML para el caso en cuestión. Los desarrolladores pueden usar esta solución para encontrar rápidamente un modelo de referencia.
¿Qué es Personalizar?
Personalize es un servicio de aprendizaje automático que ayuda a crear sistemas de recomendación. Personalize puede procesar flujos de actividad de aplicaciones, por ejemplo, clics, vistas de página, compras, y usarlos para crear recomendaciones personalizadas. También puede utilizar información adicional sobre sus usuarios, como la edad o la ubicación geográfica. Mostrar los resultados de las recomendaciones en su aplicación se puede simplificar con breves llamadas a la API. Amazon.com ha mejorado la tecnología de aprendizaje automático en Personalize durante años de uso.

¿Qué es Comprender?
Comprehend es un servicio de procesamiento de lenguaje natural (NLP) que utiliza el aprendizaje automático para extraer información valiosa de datos textuales no estructurados. Este servicio aplica análisis de sentimientos, extracción de partes del discurso y tokenización para detectar características clave del texto. Comprender puede ser útil para comprender qué tan positivo o negativo es un texto dado.
Comprehend tiene una herramienta adicional: Amazon Comprehend Medical, específicamente para la industria médica. Amazon Comprehend Medical puede analizar documentación médica (como registros médicos de pacientes, notas clínicas) y extraer información sobre medicamentos, dosis y frecuencias. Comprehend es un servicio completamente administrado.
¿Qué es Pronóstico?
Forecast utiliza el aprendizaje automático para crear modelos de predicción de series temporales. Puede combinar datos históricos de series temporales con variables adicionales (que cree que pueden afectar las previsiones) para crear modelos predictivos. Esta solución de Amazon se aplica para predecir valores como los precios de las acciones o la demanda de productos de los clientes. Forecast también es un servicio completamente administrado y se puede escalar según las necesidades comerciales.
¿Qué es Lex?
Lex utiliza el reconocimiento de voz automático (ASR) para convertir el habla en texto y la comprensión del lenguaje natural (NLU) para reconocer la intención del texto. Esta solución permite al usuario crear bots conversacionales.
Por ejemplo, puede usar Lex como reemplazo de la atención al cliente manual que responderá automáticamente las consultas de los clientes. Amazon Lex utiliza la misma tecnología de aprendizaje profundo que Amazon Alexa (la IA del asistente virtual de Amazon).
¿Qué es Polly?
Polly es un servicio en la nube que utiliza algoritmos de aprendizaje profundo para convertir texto en voz real. Actualmente admite 60 voces masculinas y femeninas en 29 idiomas, incluidos japonés, chino, coreano y árabe. Polly también puede manejar el tiempo, las fechas, las unidades, las fracciones y las abreviaturas. Esta solución permite al usuario crear aplicaciones que pueden hablar.
¿Qué es el detector de fraude?
Fraud Detector es un servicio de AWS que puede ayudar a identificar actividades fraudulentas en línea, como fraudes de pago o cuentas falsas. Este servicio está completamente administrado, por lo que se puede crear un modelo de detección de fraude con solo unos pocos clics.
¿Qué es Textract?
Textract es un servicio que puede leer automáticamente datos de documentos escaneados. Textract puede procesar millones de páginas en cuestión de horas y puede ayudar a automatizar los flujos de trabajo de los documentos. Este servicio es útil para procesar documentos como solicitudes de préstamo o documentación médica.
¿Qué es Traducir?
Translate es un servicio de aprendizaje automático de AWS para realizar la traducción de texto de un idioma a otro. Utiliza modelos de aprendizaje profundo para ofrecer una traducción con un sonido más natural y preciso, en comparación con los algoritmos estadísticos tradicionales. Translate admite 54 idiomas (incluidos, por ejemplo, afrikaans, búlgaro, estonio) y 2804 pares de idiomas.
¿Qué es el reconocimiento?
Rekognition es un servicio de visión por computadora que puede reconocer objetos, personas y texto de imágenes y películas. Rekognition es capaz de identificar y comparar rostros, analizarlos e identificar algunos rasgos faciales, como la boca, la nariz o los ojos.
Rekognition dispone de un módulo para detectar automáticamente emociones como alegría, tristeza o sorpresa en imágenes faciales. También puede realizar la verificación del rostro del usuario, que confirmará la identidad del usuario comparando la imagen en tiempo real con la imagen de referencia almacenada.
En tercer lugar: implementar soluciones de aprendizaje automático
El método más utilizado para implementar modelos es SageMaker Service, que puede utilizar de dos maneras:
- Uso del servicio de alojamiento de SageMaker para configurar puntos finales HTTPS. En esta solución, las aplicaciones de los clientes envían solicitudes a los puntos finales de HTTPS para obtener predicciones de los modelos implementados. Para usar esta solución, debe proporcionarla con su imagen de Docker. Si necesita implementar varios modelos, también puede usar puntos finales de varios modelos.
- Usando SageMaker Batch Transform , que lo ayuda a obtener predicciones para un conjunto de datos completo. Para implementar un modelo mediante Batch Transform, necesita un depósito de S3 para almacenar el modelo, los conjuntos de datos y las predicciones.
La alternativa de implementación es usar AWS IoT Greengrass . Este servicio extiende AWS a los dispositivos de Internet de las cosas (IoT). Con este servicio, los dispositivos pueden recopilar, filtrar, procesar datos y también pueden ejecutar funciones Lambda, contenedores Docker y ejecutar predicciones basadas en modelos ML incluso sin conexión a la nube. Cuando está conectado a Internet, Greengrass sincroniza todos los datos con los servicios en la nube.
Resumen
Como puede ver, Amazon Web Service ofrece un amplio conjunto de herramientas que pueden ayudarlo a crear soluciones de aprendizaje automático impactantes para su empresa. Con las herramientas de ML AWS, puede agregar nuevas funciones a sus aplicaciones, como detección de rostros, chatbots, reconocimiento de voz, análisis de sentimientos del contenido de las redes sociales. AWS agrega nuevos servicios de ML, basados en nuevos casos de uso, cada pocos meses, lo que la convierte en una de las plataformas de más rápido crecimiento para crear soluciones de IA.
¡Desarrolle una solución de aprendizaje automático preparada para el futuro con Miquido!