Как добавить решения машинного обучения в свой бизнес с помощью AWS

Опубликовано: 2020-05-13

Машинное обучение постоянно развивается и играет огромную роль в мировой экономике, поскольку позволяет быстро и автоматически анализировать большие порции данных.

Чтобы сделать технологию машинного обучения еще ближе к программистам, Amazon в настоящее время предлагает более 10 сервисов машинного обучения и искусственного интеллекта на своей платформе AWS. С помощью этих услуг вы можете начать создавать модели простым способом, который поднимет ваш бизнес на новый уровень.

Большинство этих сервисов полностью управляемы, а это значит, что для их использования вам не нужен опыт машинного обучения, поскольку эти инструменты используют предварительно обученные модели для работы с данными. В зависимости от вашей бизнес-задачи вы можете выбрать один из предварительно обученных сервисов машинного обучения в таких областях, как компьютерное зрение, обработка естественного языка, рекомендации и прогнозирование. На приведенном ниже графике показан рабочий процесс решения машинного обучения, а также инструменты AWS, которые можно использовать на каждом из этапов.

Этапы создания решений машинного обучения

Как применить машинное обучение в бизнесе с помощью AWS

Во-первых: сбор данных

Самый важный элемент в создании решений ML — это данные. Существует 3 типа данных: структурированные, полуструктурированные и неструктурированные.

  • Элементы структурированных данных являются адресуемыми и могут храниться в реляционной базе данных. Этот тип данных имеет предопределенную схему. Примером структурированных данных является реляционная база данных с числовыми и строковыми (текстовыми) данными.
  • Полуструктурированные наборы данных не хранятся в реляционных базах данных, но, тем не менее, они имеют некоторые предопределенные элементы (схему), облегчающие их анализ. Примерами типов файлов полуструктурированных данных являются XML, HTML, RDF или JSON.
  • Неструктурированные данные — это все остальное. Этот тип данных не имеет предопределенной структуры и обычно хранится в виде набора файлов. Наиболее популярными примерами неструктурированных данных являются текстовые документы, фотографии, видео- и аудиофайлы и журналы приложений.

Загрузка данных — что такое Kinesis?

Сервис AWS Kinesis принимает данные, которые могут непрерывно генерироваться из различных источников, например веб-приложений и мобильных приложений. Это служба потоковой передачи данных в реальном времени, которая может очень быстро захватывать гигабайты данных. Kinesis предлагает следующие инструменты:

  • Kinesis Video Streaming — инструмент, который поможет вам транслировать видео с устройств на AWS.
  • Kinesis Data Streaming — инструмент, который может помочь вам собирать такие данные, как ИТ-журналы, посещения веб-сайтов или финансовые транзакции.
  • Kinesis Data Firehose — инструмент для загрузки потоковых данных в хранилища данных (например, S3, Redshift) или инструменты аналитики.
  • Kinesis Data Analytics — инструмент, который обрабатывает потоковые данные в режиме реального времени с помощью SQL или Java.

Загрузка данных — что такое Glue?

Другой сервис AWS, который может помочь с загрузкой данных, — это Glue , которым управляет Apache Spark . Это инструмент извлечения, преобразования и загрузки (ETL), который можно использовать для подготовки данных перед их использованием для аналитики. Glue может работать как со структурированными, так и с полуструктурированными данными.

Элементами Glue являются каталог данных, механизм ETL и планировщик. Каталог клеевых данных — самая важная часть инструмента. Он сохраняет метаданные о заданных данных, автоматически обнаруживаемые поисковыми роботами, которые просматривают источники данных и определяют их схему.

Механизмы ETL могут генерировать код Python и Scala для использования в процессе ETL для пользователей, не умеющих программировать. Он также может обрабатывать данные с кодом, предоставленным пользователем. Планировщик может отслеживать задания, запускать задачи и запускать их на основе определенных событий (например, в определенное время каждый понедельник или когда другая задача завершается или завершается с ошибкой).

Во-вторых: выбор правильных инструментов машинного обучения

После того, как мы собрали необходимые данные, мы можем приступить к созданию наших решений машинного обучения. AWS предлагает несколько инструментов машинного обучения, которые могут обрабатывать данные различных типов.

Давайте теперь рассмотрим каждый из этих инструментов и представим их основные возможные области применения в бизнесе .

Что такое Sage Maker?

SageMaker наиболее полезен для разработчиков машинного обучения и специалистов по данным. Эта услуга представляет собой комплексное решение, которое помогает с минимальными усилиями довести модели машинного обучения от концепции до производства. Amazon SageMaker имеет богатый набор инструментов (Ground Truth, Notebooks, Experiments, Debugger, Model Monitor, Neo), которые могут помочь в маркировке данных, построении, оптимизации, обучении, тестировании и развертывании моделей.

Поиск правильного алгоритма вручную для данной задачи часто требует часов обучения и тестирования. В SageMaker есть опция AutoPilot, которая использует 50 различных предварительно обученных моделей машинного обучения для автоматического поиска лучшей модели машинного обучения для конкретного случая. Разработчики могут использовать это решение для быстрого поиска базовой модели.

Что такое персонализировать?

Персонализация — это сервис машинного обучения, который помогает создавать системы рекомендаций. Персонализация может обрабатывать потоки действий из приложений, например клики, просмотры страниц, покупки, и использовать их для создания персонализированных рекомендаций. Вы также можете использовать дополнительную информацию о своих пользователях, такую ​​как возраст или географическое положение. Отображение результатов рекомендаций в приложении можно упростить с помощью коротких вызовов API. Технология машинного обучения в Personalize была улучшена за годы использования Amazon.com.

Что такое понять?

Comprehend — это служба обработки естественного языка (NLP), которая использует машинное обучение для извлечения ценных сведений из неструктурированных текстовых данных. Этот сервис применяет анализ настроений, извлечение частей речи и токенизацию для обнаружения ключевых особенностей текста. Понимание может помочь понять, насколько положительным или отрицательным является данный текст.

У Comprehend есть дополнительный инструмент: Amazon Comprehend Medical, специально предназначенный для медицинской отрасли. Amazon Comprehend Medical может анализировать медицинскую документацию (например, медицинские карты пациентов, клинические записи) и извлекать информацию о лекарствах, дозах и частотах приема. Comprehend — это полностью управляемая служба.

Что такое прогноз?

Forecast использует машинное обучение для построения моделей прогнозирования временных рядов. Он может комбинировать исторические данные временных рядов с дополнительными переменными (которые, по вашему мнению, могут повлиять на прогнозы) для построения прогностических моделей. Это решение Amazon применяется для прогнозирования таких значений, как цены на акции или потребительский спрос на продукцию. Прогноз также является полностью управляемой службой и может масштабироваться в соответствии с потребностями бизнеса.

Что такое Лекс?

Lex использует автоматическое распознавание речи (ASR) для преобразования речи в текст и понимание естественного языка (NLU) для распознавания смысла текста. Это решение позволяет пользователю создавать диалоговых ботов.

Например, вы можете использовать Lex вместо ручной поддержки клиентов, которая будет автоматически отвечать на запросы клиентов. Amazon Lex использует ту же технологию глубокого обучения, что и Amazon Alexa (виртуальный помощник AI от Amazon).

Что такое Полли?

Polly — это облачный сервис, использующий алгоритмы глубокого обучения для преобразования текста в реалистичную речь. В настоящее время он поддерживает 60 мужских и женских голосов на 29 языках, включая японский, китайский, корейский и арабский. Полли также может работать со временем, датами, единицами измерения, дробями и сокращениями. Это решение позволяет пользователю создавать приложения, которые могут говорить.

Что такое детектор мошенничества?

Fraud Detector – это сервис AWS, который помогает выявлять мошеннические действия в Интернете, такие как мошенничество с платежами или поддельные учетные записи. Эта услуга полностью управляема, поэтому модель обнаружения мошенничества может быть создана всего за несколько кликов.

Что такое текст?

Texttract — это служба, которая может автоматически считывать данные из отсканированных документов. Textract может обрабатывать миллионы страниц за считанные часы и может помочь в автоматизации документооборота. Эта услуга полезна при обработке документов, таких как заявки на получение кредита или медицинская документация.

Что такое перевести?

Translate — это служба машинного обучения AWS, предназначенная для выполнения перевода текста с одного языка на другой. Он использует модели глубокого обучения для обеспечения более точного и естественно звучащего перевода по сравнению с традиционными статистическими алгоритмами. Translate поддерживает 54 языка (включая, например, африкаанс, болгарский, эстонский) и 2804 языковых пары.

Что такое Признание?

Rekognition — это служба компьютерного зрения, которая может распознавать объекты, людей и текст из изображений и фильмов. Rekognition может идентифицировать и сравнивать лица, анализировать их и определять некоторые черты лица, такие как рот, нос или глаза.

Rekognition имеет модуль для автоматического обнаружения эмоций, таких как счастье, печаль или удивление, на изображениях лиц. Он также может выполнять проверку лица пользователя, которая подтвердит личность пользователя, сравнивая изображение в реальном времени с сохраненным эталонным изображением.

В-третьих: развертывание решений для машинного обучения

Наиболее широко используемый метод развертывания моделей — SageMaker Service, который можно использовать одним из двух способов:

  • Использование службы хостинга SageMaker для настройки конечных точек HTTPS. В этом решении клиентские приложения отправляют запросы к конечным точкам HTTPS, чтобы получить прогнозы от развернутых моделей. Чтобы использовать это решение, вы должны предоставить ему свой образ Docker. Если вам нужно развернуть несколько моделей, вы также можете использовать конечные точки с несколькими моделями.
  • Использование SageMaker Batch Transform , которое поможет вам получить прогнозы для всего набора данных. Чтобы развернуть модель с помощью пакетного преобразования, вам понадобится корзина S3 для хранения модели, наборов данных и прогнозов.

Альтернативой развертывания является использование AWS IoT Greengrass . Этот сервис расширяет возможности AWS до устройств Интернета вещей (IoT). Используя этот сервис, устройства могут собирать, фильтровать, обрабатывать данные, а также запускать функции Lambda, контейнеры Docker и выполнять прогнозы на основе моделей машинного обучения даже без подключения к облаку. При подключении к Интернету Greengrass синхронизирует все данные с облачными сервисами.

Резюме

Как видите, Amazon Web Service предлагает богатый набор инструментов, которые помогут вам создавать эффективные решения для машинного обучения для вашего бизнеса. С помощью инструментов ML AWS вы можете добавлять в свои приложения новые функции, такие как распознавание лиц, чат-боты, распознавание речи, анализ настроений в контенте социальных сетей. AWS добавляет новые сервисы машинного обучения на основе новых вариантов использования каждые несколько месяцев, что делает его одной из самых быстрорастущих платформ для создания решений ИИ.

Разработайте перспективное решение для машинного обучения с Miquido!