6 способов использовать Deep Learning для повышения удобства использования мобильных устройств

Опубликовано: 2020-01-23

Учитывая растущий глобальный спрос на расширенные, более персонализированные мобильные приложения, неизбежна широкая адаптация искусственного интеллекта и глубокого обучения в индустрии разработки мобильных приложений. Забудьте о разочаровывающих проблемах с задержкой, возникающих при использовании мобильного зондирования и облачных вычислений. Почти нулевая задержка не за горами, а скорость обработки данных в реальном времени обеспечивает оптимальные результаты.

Усовершенствованные чипы Apple Bionic для смартфонов со встроенными нейронными процессорами уже помогают нейронным сетям работать непосредственно на устройстве с невероятной скоростью. Используя платформы Apple Core ML и Google ML Kit, а также библиотеки глубокого обучения, такие как TensorFlow Lite и Keras, мобильные разработчики могут создавать приложения с меньшей задержкой, меньшим количеством ошибок и более быстрой обработкой данных.

Основное преимущество машинного обучения на устройстве заключается в том, что оно предлагает пользователям плавный и точный пользовательский опыт. Поскольку не возникает вопроса об отправке данных на внешние серверы для обработки, вы получаете улучшенную защиту данных, а также безопасность и конфиденциальность пользователей. Кроме того, с нейронными сетями на мобильных устройствах вам не нужно подключаться к Интернету, чтобы получить доступ ко всем функциям ваших приложений. Вам, конечно, все равно понадобится Интернет для большинства стандартных функций.

6 способов развертывания глубокого обучения на мобильных устройствах

Использование вычислительных возможностей мобильных устройств для реализации алгоритмов глубокого обучения, несомненно, повысило удобство использования мобильных устройств. Вот как:

1. Распознавание речи на устройстве

Распознавание речи включает преобразование или преобразование входных последовательностей в выходные последовательности с использованием рекуррентных нейронных сетей (RNN), сверточных нейронных сетей (CNN), глубоких нейронных сетей (DNN) и других архитектур. Разработчики боролись с проблемой задержки, которая создает задержки между вашим запросом и ответом автоматизированного помощника, но теперь мы можем обойти это, используя технологию компактного преобразователя рекуррентной нейронной сети (RNN-T) в мобильных устройствах.

RNN-T - это модели последовательностей. Однако вместо того, чтобы следовать обычному методу обработки всей входной последовательности перед созданием вывода, они поддерживают постоянную непрерывность обработки ввода и потоковой передачи вывода. Это облегчает распознавание и обработку речи в реальном времени. Вы видите это с помощью Google Assistant, который может обрабатывать последовательные голосовые команды без запинок и без необходимости вызывать «Привет, Google» после каждого запроса.

Это делает двусторонний разговор более естественным, и Ассистент будет следовать вашим инструкциям до буквы Т. Хотите, чтобы он установил тему электронного письма, нашел фотографию в одной из ваших папок и провел вас к дому вашей сестры? Это сделано.

В новом Pixel 4 от Google его функция Live Caption может предоставлять субтитры к аудиозаметкам, подкастам и видео в режиме реального времени, а также — поскольку обработка выполняется на устройстве — в режиме полета. Так, например, если видео появляется в вашей ленте Twitter, вы можете узнать, о чем оно, по его подписям, без необходимости включать звук. Live Caption пока не работает с музыкой, телефонными и видеозвонками.

2. Повышение эффективности благодаря распознаванию жестов

С помощью конвейерных моделей машинного обучения на устройстве вы можете научить свое мобильное устройство обнаруживать, отслеживать и распознавать жесты рук и тела. Камера вашего устройства записывает и сохраняет ваши жесты и движения в виде данных 3D-изображения. Затем алгоритмы глубокого обучения нейронных сетей используют эту библиотеку жестов для идентификации и расшифровки конкретных статических и динамических жестов. Затем они сопоставляют их в реальном времени с вашими намерениями и выполняют нужные команды.

Смартфоны Google Pixel 4 поставляются с чипом Soli, который облегчает сложное и невербальное взаимодействие с вашим телефоном. Этот миниатюрный радарный датчик в верхней части телефона обеспечивает работу технологии Motion Sense, которая может обнаруживать ваше присутствие, а также жесты рук и тела, чтобы обеспечить взаимодействие с вашим телефоном. Взмахом руки, даже не касаясь телефона, вы можете попросить его вздремнуть, отключить будильник или перейти к следующей песне в вашем плейлисте.

3. Иммерсивные возможности дополненной реальности

Используя платформы Google ARCore и Apple ARKit, разработчики могут создавать приложения дополненной реальности, которые могут сопоставлять цифровые объекты и среды с реальными настройками . Иммерсивные возможности дополненной реальности на базе телефонов оказывают значительное влияние на розничную торговлю, развлечения, путешествия и другие отрасли. Такие бренды, как Lacoste и Sephora, теперь позволяют своим клиентам примерять или предварительно просматривать продукты с помощью приложений дополненной реальности, и все больше покупателей предпочитают проверять продукты на своих телефонах, прежде чем принять решение о их покупке.

Интерактивные игры с дополненной реальностью, такие как Pokemon, Ingress и Ghostbusters World, получили широкую прессу и преданных поклонников. Если вы хотите сориентироваться в городе, Google Maps Live View предоставит вам навигацию в реальном времени.

4. Более качественные фотографии

Высокое качество фотографий — важный критерий для покупателей при выборе смартфона, который они могут получить со многими последними моделями. Они оснащены аппаратными компонентами — центральными процессорами (ЦП), процессорами сигналов изображения, алгоритмами обработки изображений с глубоким обучением и нейронными процессорами — которые вывели смартфоны в совершенно иную область, чем традиционные камеры, когда дело доходит до фотографирования. С их помощью смартфоны могут демонстрировать большую осведомленность на уровне классификации пикселей о том, что они видят, чтобы снимать фотографии высокой четкости.

В телефонах Google Pixel и Apple iPhone используется несколько камер и сложные алгоритмы машинного обучения для распознавания людей и объектов, создания карт глубины, беспрепятственного объединения длительных выдержек и расчета точного цветового баланса .

Обучая нейронные сети на наборе данных изображений, алгоритмы учатся реагировать на индивидуальные требования к изображению и ретушировать фотографии в режиме реального времени. Разработанная исследователями из Массачусетского технологического института и Google система автоматической ретуши позволяет фотографам применять различные стили к изображению еще до того, как они сделают снимок.

После того, как сверточная сеть выполняет обработку изображения с низким разрешением, метод отображения, известный как аффинное преобразование цвета, изменяет цвета пикселей изображения. Сеть сохраняет эти формулы трансформации в трехмерной сетке, которая затем позволяет выводить изображения с высоким разрешением. Все это происходит за миллисекунды.

Смартфоны теперь также опережают зеркальные камеры в условиях низкой освещенности и ночной фотографии. Включая глубокие нейронные сети и датчики, камеры смартфонов могут снимать более четкие изображения с большим количеством цветов, чем может воспринять человеческий глаз.

Huawei, которая представила работоспособные снимки при слабом освещении в своем P20 Pro, использует фильтры RYYB, большие датчики и обработку изображений AI в своей серии Mate 30, чтобы предлагать высококачественные фотографии при слабом освещении, а также видеосъемку при слабом освещении. Google Pixel 4 поставляется с режимом ночного видения, который может делать фотографии в диапазоне 0,3–3 люкс, а его астрофотография может снимать темное звездное небо. Наряду с ночным режимом, который автоматически активируется в темноте, новая система Apple Deep Fusion адаптируется к уровню освещенности и выводит фотографии на iPhone на более впечатляющий уровень.

Даже если вы не разбираетесь в фотографии, вы сможете делать отличные фотографии с помощью этих смартфонов.

5. Повышенная безопасность и конфиденциальность

Соблюдение Общего регламента по защите данных (GDPR) и Закона Калифорнии о конфиденциальности потребителей (CCPA) стало проще благодаря машинному обучению на устройстве. Это гарантирует безопасность данных, так как вам не нужно загружать данные для биометрии, шифрования или живых подписей на сервер или в облако для обработки.

Автоматическое шифрование на устройстве — еще одна полезная функция смартфона, которая защищает ваш контент с помощью PIN-кода, пароля или графического ключа и разрешает доступ к вашим данным только после разблокировки телефона. Таким образом, если вы потеряете свое устройство или оно будет украдено, вероятность того, что кто-либо получит ваши данные, ничтожно мала.

Функция Face ID в iPhone является одним из примеров более безопасного использования смартфона. Нейронные сети на чипах смартфонов Apple обрабатывают и безопасно хранят данные о лицах пользователей. Идентификация происходит на вашем устройстве, поэтому ваша конфиденциальность и безопасность остаются беспрепятственными.

Технология Face Unlock в Google Pixel 4, поддерживаемая чипом Soli, использует 3D-картографирование глубины ИК для создания ваших моделей лица для распознавания лиц и сохраняет их на чипе безопасности Titan M6 на устройстве. Face Unlock хорошо работает с приложением 1Password, предлагая пользователям биометрическую защиту, исключая возможность мошенничества с идентификацией. Чтобы настроить приложение 1Password на Pixel 4, вам нужно только ввести свои данные в поле «Автозаполнение» и использовать Face Unlock для входа вместо функции разблокировки по отпечатку пальца.

6. Более точное распознавание изображений

Сочетая машинное обучение на устройстве с технологией классификации изображений, вы можете идентифицировать и получать подробную информацию в режиме реального времени практически обо всем, с чем сталкиваетесь. Хотите прочитать текст на иностранном языке? Отсканируйте его с помощью телефона, чтобы получить мгновенный и точный перевод. Вам понравился наряд или предмет мебели? Отсканируйте его, чтобы получить информацию о цене и о том, где его можно купить. В меню ресторана появилось заманчивое новое блюдо? Вы можете использовать свой телефон, чтобы узнать его ингредиенты и информацию о пищевой ценности.

Упрощая распознавание изображений в режиме реального времени, такие приложения, как Google Lens, Calorie Mama и Leafsnap, повышают удобство использования и обучаемость мобильных устройств, а также улучшают взаимодействие с пользователем.

Глубокое обучение на мобильных устройствах: последние мысли

Возможности машинного обучения на устройстве огромны. Благодаря все более эффективным интеллектуальным алгоритмам, более глубоким нейронным сетям и более мощным чипам искусственного интеллекта мобильные приложения для глубокого обучения станут стандартом в банковском деле, розничной торговле, здравоохранении, аналитике данных, информационных технологиях, телекоммуникациях, аэрокосмической и других отраслях.

По данным Verified Market Research, к 2026 году мировой рынок глубокого обучения, вероятно, достигнет 26,64 млрд долларов, а рынок чипсетов для глубокого обучения достигнет 2,9 млрд долларов. По мере того, как возможности глубокого обучения продолжают улучшаться, функции удобства использования мобильных устройств будут развиваться вместе с дальнейшими инновациями.

Готовы к следующему программному проекту? Свяжись с нами!