Как использовать машинное обучение в аналитике больших данных
Опубликовано: 2022-09-30Машинное обучение позволяет организациям превращать большие данные в идеи, повышающие прибыль. Узнайте, как связаны большие данные и машинное обучение и как их использовать.
Много лет назад владельцам бизнеса приходилось полагаться на свою память, чтобы настроить то, как они обслуживают своих клиентов. Когда г-жа Джонс вошла, владелица магазина должна была вспомнить, что она купила в прошлый раз, вернула она это или нет, и жаловалась ли она на это во время своего последнего визита.
Теперь, благодаря большим данным, тонны данных о клиентах и бизнесе всегда у вас под рукой. Вы знаете, где живет г-жа Джонс, что она купила за последние 10 лет, сколько потратила, как часто возвращает товары и десятки других показателей. Используя машинное обучение, вы можете превратить эти и другие данные в полезные для бизнеса идеи. Вот разбивка больших данных и машинного обучения, а также то, как вы можете использовать их для развития своего бизнеса.
Что такое большие данные и машинное обучение?
Большие данные и машинное обучение различны, но тесно связаны между собой.
Что такое большие данные?
Большие данные — это огромные или невероятно сложные наборы данных, которые невозможно использовать без специальных инструментов. Некоторым предприятиям никогда не приходится иметь дело с большими данными. Например, если у вас есть ресторан с тремя точками, производящими данные о продажах и запасах, это не «большие данные».
С другой стороны, если тот же ресторан добавит еще 10 заведений и мобильное приложение, позволяющее клиентам размещать заказы онлайн, получать вознаграждения за лояльность и общаться с представителем службы поддержки клиентов с помощью текстовых сообщений, у вас возникнет ситуация с большими данными. Само приложение может предоставлять данные о:
- Блюда, которые клиенты заказывают чаще всего
- Время суток, когда клиенты размещают заказы
- Где клиенты заказывают еду на основе данных геолокации
- Где живут клиенты и статистика покупок, связанная с каждым городом
- Данные о продажах по каждому местоположению
- Как клиенты используют свои призовые баллы
- Данные о покупках в пиковое и праздничное время
Эти примеры лишь царапают поверхность. Такое приложение может генерировать десятки наборов данных. Кроме того, информация будет поступать почти постоянно. Это большие данные.
Что такое машинное обучение?
Машинное обучение (ML) относится к использованию компьютеров для распознавания закономерностей в данных. Машинное обучение делает это с помощью алгоритмов, которые представляют собой пошаговые инструкции. Модель машинного обучения использует шаги алгоритма для изучения шаблонов. Это также включает в себя распознавание того, когда шаблоны нарушаются, и обучение тому, как сравнивать шаблоны друг с другом.
В качестве простого примера предположим, что вы хотите создать алгоритм машинного обучения для анализа данных о продажах. У вас есть данные о продажах за пять лет. Ваша цель — максимизировать летнюю прибыль, выяснив, какие продукты вы должны продавать в период с июня по август.
Вы можете запрограммировать свою систему машинного обучения на:
- Агрегируйте данные о продажах для каждого из ваших продуктов, месяц за месяцем.
- Определите продукты, которые имеют наибольший объем продаж в период с июня по август.
- Прогнозировать продажи, связанные с предложением каждого продукта.
- Расскажите, какие продукты предлагать и следует ли предлагать их в июне, июле, августе или в течение всех трех месяцев.
Конечно, вы можете пойти дальше ML и включить себестоимость проданных товаров (COGS) для каждого продукта, включая данные о доставке, оплате труда, хранении и другие данные. Тогда ваша модель машинного обучения может рекомендовать не только продукты с наибольшим объемом летних продаж, но и подсказать, какие из них приносят наибольшую чистую прибыль.
Затем вы можете использовать ту же модель для предоставления информации о продажах для:
- Отдельные продукты в течение года
- Новые продукты, ориентированные на аналогичные целевые рынки
- Каждый второй месяц года
Что такое машинное обучение в больших данных?
В контексте больших данных в любое время, когда в данных могут быть шаблоны, вы можете использовать машинное обучение, чтобы обнаружить их и предоставить полезную информацию. Кроме того, вы можете использовать машинное обучение, чтобы давать рекомендации на основе шаблонов, анализируемых алгоритмами.
Как машинное обучение работает с большими данными
Одно из самых популярных применений машинного обучения — беспилотные автомобили. Автомобиль использует машинное обучение, чтобы решить, что делать с данными, которые он собирает из своего окружения и других транспортных средств.
Например, когда камеры внутри беспилотного автомобиля «видят» знак остановки, они могут распознать его как таковой и автоматически задействовать тормоза. Процесс, стоящий за этим решением, скорее всего, начался с того, что группа специалистов по данным тестировала несколько алгоритмов машинного обучения. На высоком уровне это занимает три шага:
1. Обучение
Чтобы анализировать большие данные, специалисты по данным сначала используют обучающий набор, чтобы научить один или несколько алгоритмов тому, что им следует искать.
Например, для знака «стоп» обучающая выборка будет состоять из тысяч изображений знаков «стоп». Дата-инженеры представляли изображения знаков остановки под разными углами, при разном освещении и даже с частично загораживающими их деревьями или другими объектами.
В конце этапа обучения есть надежда, что алгоритм идентифицировал закономерности в формах и цветах знаков остановки. Другими словами, он знает, как «выглядит» знак остановки — при разном освещении и под разными углами.
2. Проверка
Набор проверки используется, чтобы выяснить, насколько точна модель машинного обучения, использующая совершенно другой набор больших данных. Цель этапа проверки — найти способы тонкой настройки модели машинного обучения.
Например, предположим, что модель машинного обучения, предназначенная для определения знаков «стоп», имеет точность 95 %, и все ошибочные изображения очень темные. Затем разработчики могли бы использовать другую формулу, которая увеличивает контрастность каждого изображения, облегчая просмотр важных характеристик моделью машинного обучения.
3. Тестирование
Этап тестирования включает в себя подачу в модель ML большего количества больших данных, которые полностью отличаются от того, что она видела на этапах обучения и проверки.

Например, чтобы протестировать модель знака «стоп», программисты могут показать модели машинного обучения 250 000 изображений различных видов знаков, некоторые из которых являются знаками «стоп». Затем они проанализируют результаты, чтобы увидеть, насколько точно модель способна различать знаки остановки, а также избегать ошибочной идентификации других видов знаков.
Проблемы с машинным обучением и большими данными
Две самые сложные проблемы, с которыми сталкиваются специалисты по данным, использующие машинное обучение для изучения больших данных, — это неточность и этические дилеммы.
1. Неточность
Естественно, даже при использовании передовых вычислительных процессов вы все равно будете проходить через элемент проб и ошибок каждый раз, когда используете машинное обучение в аналитике больших данных. Это связано с тем, что вы никогда не знаете, какие факторы могут исказить ваши результаты при обучении, проверке и тестировании вашей модели.
Например, при идентификации изображений, таких как знаки остановки или человеческие лица, несколько факторов могут повлиять на низкую производительность вашей модели машинного обучения. Например, предположим, что вы разрабатываете модель машинного обучения для улучшения системы безопасности вашей компании. В частности, вам нужна модель, которая может идентифицировать лица руководителей и других высокопоставленных лиц, чтобы им был предоставлен доступ к секретным областям здания. На этапе проверки точность системы составляет всего около 65%. Но это может быть связано с несколькими переменными, такими как:
- Пиксельные изображения лиц
- Изображения не в фокусе
- Человек, отводящий взгляд во время сканирования лица
- Человек, решивший носить солнцезащитные очки, маску для лица, шарф или что-то еще, что может исказить результаты идентификации.
2. Этические дилеммы
Есть и этические проблемы. Например, предположим, что отдел кадров использует машинное обучение для выявления наиболее подходящих кандидатов, извлекая их из цифровой стопки из 1500 резюме.
Если модель машинного обучения была обучена с использованием компаний и отделов по найму, управляемых только мужчинами, данные могут включать систематическую ошибку. Некоторые мужчины могут быть более склонны нанимать других мужчин по причинам, отличным от их достоинств или квалификации. Следовательно, «успешный» кандидат, которого инженеры обучили модели машинного обучения искать, в большинстве случаев может быть мужчиной. В результате модель рекомендует мужчин, а не женщин, которые могли бы быть более квалифицированными.
Как связаны большие данные и машинное обучение в контексте бизнеса?
В бизнес-контексте машинное обучение использует большие данные, которые производит ваша организация, для улучшения или автоматизации критически важных бизнес-процессов и повышения безопасности и надежности. Потенциальные области применения буквально безграничны — и столь же разнообразны, как и различные виды данных, которые вы производите.
Например, фабрика или производственное предприятие могут использовать машинное обучение для оптимизации уровней температуры и влажности в цехах. Например, модели машинного обучения могут определить:
- Уровни температуры и влажности, которые максимизируют производительность сотрудников и сводят к минимуму количество незапланированных перерывов, которые им приходится делать.
- Идеальные уровни температуры и влажности для чувствительного оборудования, которое может быстрее выйти из строя из-за неправильных условий.
- Наиболее экономичные условия температуры и влажности, учитывая стоимость эксплуатации систем HVAC и осушителей.
Затем эту систему можно использовать для автоматического управления вашей атмосферной системой для достижения оптимальных результатов.
Как машинное обучение и аналитика больших данных используются в маркетинге?
Маркетинг предлагает одни из самых многообещающих приложений машинного обучения и анализа больших данных. Рассмотрим следующий пример из реальной жизни.
Альберт из Harley Davidson увеличил количество потенциальных клиентов на 2930%
Harley Davidson построила робота по имени Альберт, который использует машинное обучение для принятия маркетинговых решений [1] . Вот как Альберт помог руководителям Harley Davidson уехать навстречу яркому закату.
Harley Davidson хотел использовать свои существующие отношения с предыдущими клиентами. Они использовали Альберта для анализа:
- Как часто люди совершали покупки
- Сколько эти клиенты потратили
- Сколько времени клиенты потратили на просмотр веб-сайта Harley Davidson
Затем Альберт использовал эти данные для разделения клиентов на разные сегменты. Затем команда маркетинга создала тестовые кампании для каждой категории клиентов. Проверив успешность кампании, команда расширила ее, чтобы задействовать широкий круг предыдущих клиентов.
В результате Harley Davidson увеличила свои продажи на 40%. Они также генерировали на 2930 % больше лидов. Половина этих зацепок была непосредственно идентифицирована самим Альбертом. Альберт изучил профили лидов, которые с большой долей вероятности могли превратиться в платящих клиентов, а затем изучил профили данных других пользователей и точно определил «двойников» или людей, у которых много общего с клиентами с высокой конверсией.
Независимо от того, пытаетесь ли вы выяснить, что г-жа Джонс купит дальше, или оптимизируете эффективность сложного производственного предприятия, машинное обучение может превратить, казалось бы, случайные большие данные в трансформационные идеи. Проведя небольшой мозговой штурм и творчески подумав, вы сможете найти способы использования машинного обучения и больших данных, чтобы опередить конкурентов и вывести свою организацию на новый уровень.
Хотите узнать больше об инструментах, которые могут помочь с большими данными?
Программное обеспечение для работы с большими данными может помочь вашему бизнесу получить максимальную отдачу от своих больших данных и аналитики. Просмотрите и сравните некоторые из лучших инструментов, прочитайте обзоры и найдите лучшее решение для ваших конкретных бизнес-задач.
Источники
1. Harley Davidson NYC бьет все рекорды с Альбертом, Albert.ai