Контролируемое и неконтролируемое обучение: какая модель машинного обучения вам подходит?

Опубликовано: 2022-05-07

Машинное обучение не должно быть загадочным. В этой статье мы разберем два наиболее распространенных типа и варианты их использования.

Человек и машина обмениваются данными друг с другом

Как бизнес-лидер, вы знаете, что внедрение новых технологий может смягчить болевые точки и сделать ваш бизнес более конкурентоспособным. Вот почему в течение года сбоев многие предприятия обратились к цифровой трансформации, чтобы пережить это.

Вы также можете знать о потенциале новых технологий, таких как машинное обучение, которые могут сделать ваш бизнес перспективным. Но будьте осторожны: если вы не понимаете применения машинного обучения, вы рискуете потратить деньги на бесполезные результаты. Возьмите пример ниже, чтобы увидеть, что мы имеем в виду.

Чтобы подготовиться к написанию этой статьи, мы использовали инструмент генерации естественного языка (NLG), который поможет нам понять, как лучше всего разделить контролируемое и неконтролируемое обучение. Вот выдержка из нашего аналога из NLG:

«Каждая модель неконтролируемого обучения предоставляет опережающие тензорные матрицы, основанные на коэффициенте корреляции, ложноположительном ответе, довольно минимальных статистически полезных данных (или сильно зависящих от них), используется для уменьшения размерности с использованием графиков и деревьев для создания собственных предельных точек данных».

Чувствовать неловкость? Мы тоже. Но, несмотря на сбивающий с толку синтаксис предложений инструмента NLG, этот эксперимент с искусственным интеллектом (ИИ) не был полностью бесполезным. Это заставило нас понять, что когда дело доходит до получения наилучших результатов от ИИ, важно найти правильное приложение — именно поэтому мы написали это руководство, чтобы помочь вам.

Мы поговорили с Томасом Вудом, консультантом Fast Data Science по науке о данных, и он помог изложить тему в простых для понимания терминах. С помощью Вуда мы объясним разницу между двумя распространенными методами машинного обучения, контролируемым и неконтролируемым обучением, а также какие варианты использования лучше всего подходят для каждого метода.

Новичок в машинном обучении? Ознакомьтесь с этими ключевыми понятиями, прежде чем углубляться в остальную часть этой статьи:

  • Машинное обучение (МО) — это подмножество искусственного интеллекта (ИИ), которое решает проблемы, используя алгоритмы и статистические модели для извлечения знаний из данных. Вообще говоря, все модели машинного обучения можно разделить на контролируемое и неконтролируемое обучение.
  • Алгоритм в машинном обучении — это процедура, которая запускается на данных для создания модели машинного обучения.
  • Модель в машинном обучении — это результат работы алгоритма машинного обучения на данных. Это означает, что модель представляет то, что было изучено алгоритмом машинного обучения.

Каковы основные различия между контролируемым и неконтролируемым обучением?

Если бы нам пришлось свести это к одному предложению, оно было бы таким: основное различие между обучением с учителем и обучением без учителя заключается в том, что обучение с учителем использует помеченные данные, чтобы помочь предсказать результаты, а обучение без учителя — нет.

Однако между этими двумя подходами есть дополнительные нюансы, которые мы продолжим разъяснять, чтобы вы могли выбрать лучший подход для своей ситуации.

Как работает контролируемое машинное обучение

Как мы упоминали выше, контролируемое обучение использует помеченные данные для обучения модели. Но что это означает в теории? Давайте рассмотрим несколько примеров для начала.

При обучении с учителем модель получает как входные данные, так и соответствующие выходные данные. Предположим, мы обучаем модель идентифицировать и классифицировать различные виды фруктов. В этом примере вы предоставите несколько изображений фруктов в качестве входных данных, а также их форму, размер, цвет и профиль вкуса. Затем вы предоставите модели имена каждого фрукта в качестве выходных данных.

В конце концов, алгоритм определит закономерность между характеристиками фруктов (входные данные) и их именами (выходные данные). Как только это произойдет, модели могут быть предоставлены новые входные данные, и она будет прогнозировать выходные данные для вас. Этот вид контролируемого обучения, называемый классификацией , является наиболее распространенным .

Как работает неконтролируемое машинное обучение

Напротив, неконтролируемое обучение работает, обучая модель самостоятельно идентифицировать шаблоны (следовательно, без учителя) из немаркированных данных. Это означает, что предоставляется вход, но не выход.

Чтобы понять, как это работает, давайте продолжим с примером фруктов, приведенным выше. При обучении без учителя вы предоставляете модели входной набор данных (изображения фруктов и их характеристики), но не предоставляете выходные данные (названия фруктов).

Модель будет использовать подходящий алгоритм, чтобы научить себя делить фрукты на разные группы в соответствии с наиболее схожими характеристиками между ними. Этот вид неконтролируемого обучения, называемый кластеризацией , является наиболее распространенным.

Нужно еще раз пройтись по двум моделям машинного обучения? Посмотрите это короткое видео для объяснения высокого уровня:

Когда следует использовать обучение с учителем по сравнению с обучением без учителя?

Следует ли вам использовать контролируемое или неконтролируемое обучение, зависит от ваших целей, а также от структуры и объема имеющихся у вас данных. Прежде чем принять решение, попросите специалиста по данным оценить следующее:

  • Входные данные представляют собой немаркированный или маркированный набор данных? Если он не помечен, может ли ваша команда поддерживать дополнительную маркировку?
  • Какую цель вы хотите достичь? Вы работаете с повторяющейся, четко определенной проблемой или алгоритм должен предсказывать новые проблемы?
  • Существуют ли алгоритмы, поддерживающие объем и структуру ваших данных? Имеют ли они ту же размерность, которая вам нужна (количество функций или атрибутов)?

Когда использовать контролируемое машинное обучение

По данным Gartner, контролируемое обучение является наиболее популярным и наиболее часто используемым типом машинного обучения в бизнес-сценариях. Вероятно, это связано с тем, что, хотя классификация больших данных может быть реальной проблемой в обучении с учителем, результаты очень точны и заслуживают доверия (полный исходный код доступен клиентам).

Вот несколько примеров использования контролируемого обучения. Некоторые из них относятся к конкретной отрасли, а другие могут применяться к любой организации:

  • Выявление факторов риска заболеваний и планирование профилактических мероприятий
  • Классификация того, является ли электронное письмо спамом
  • Прогнозирование цен на жилье
  • Прогнозирование оттока клиентов
  • Прогнозирование осадков и погодных условий
  • Выяснение того, относится ли заявитель к кредиту к группе низкого или высокого риска
  • Прогнозирование выхода из строя механических частей автомобильных двигателей.
  • Прогнозирование показателей обмена в социальных сетях и показателей производительности

Вуд поделился с нами примером того, как он использовал контролируемое обучение для создания системы сортировки входящих электронных писем клиента. С помощью CRM-системы электронные письма были разделены на группы, соответствующие общим запросам (например, изменение адреса клиента, жалобы). Затем Вуд использовал эти категории для обучения модели, чтобы при получении нового входящего электронного письма она знала, к какой категории отнести это электронное письмо. Он говорит:

«Обучение с учителем в данном случае стало возможным благодаря наличию CRM-системы, которая предоставила набор «меток» для обучения модели. Без них было бы возможно только обучение без учителя».

Хотите очистить свой почтовый ящик? Начните работу с программным обеспечением CRM.

Когда использовать неконтролируемое машинное обучение

В отличие от обучения с учителем, обучение без учителя может обрабатывать большие объемы данных в режиме реального времени. А поскольку модель автоматически определяет структуру данных (классификация), она полезна в тех случаях, когда человеку будет трудно самостоятельно находить тенденции в данных.

Например, если вы пытаетесь сегментировать потенциальных потребителей на группы в маркетинговых целях, отличной отправной точкой станет метод неконтролируемой кластеризации.

Вот несколько примеров использования неконтролируемого обучения:

  • Группировка клиентов по их покупательскому поведению
  • Поиск корреляций в данных о клиентах (например, люди, которые покупают сумку определенного стиля, также могут быть заинтересованы в обуви определенного стиля)
  • Сегментация данных по истории покупок
  • Классификация людей по разным интересам
  • Группировка запасов по показателям производства и продаж

Вуд объяснил нам, что когда-то он работал в фармацевтической компании с производственными предприятиями по всему миру. Программное обеспечение, которое компания использовала для записи ошибок, произошедших на их объектах, не имело выпадающего меню с вариантами распространенных ошибок на выбор.

Из-за этого заводские рабочие документировали ошибки открытым текстом (либо на английском, либо на своем родном языке). Компания хотела знать причины общих производственных проблем, но без категоризации ошибок было невозможно выполнить статистический анализ данных.

Вуд использовал алгоритм обучения без учителя, чтобы обнаружить общие черты в ошибках. Он смог определить самые важные темы и получить статистику, такую ​​как разбивка круговых диаграмм общих производственных проблем в компании. Вуд говорит:

«Это дало компании краткий обзор проблем в их бизнесе, который в противном случае потребовал бы значительной ручной работы».

Подготовьтесь к умному будущему: используйте машинное обучение

Машинное обучение — это мощный инструмент, который может помочь вам решать бизнес-задачи и принимать решения на основе данных. Надеюсь, эта статья даст вам некоторые идеи о том, как контролируемое или неконтролируемое машинное обучение может быть реализовано в вашей организации.

Если вы готовы использовать технологию машинного обучения, ваши следующие шаги должны заключаться в оценке возможностей вашего текущего стека программного обеспечения. Затем запросите у своего поставщика варианты использования от других клиентов в вашей отрасли, которые соответствуют приложениям, для которых вы хотели бы использовать машинное обучение.

Чувствуете, что есть чему поучиться? Проверьте эти связанные чтения от Capterra:

  • Что такое машинное обучение? Ваш основной глоссарий бизнес-аналитики
  • Руководство Savvy Small Business по машинному обучению и искусственному интеллекту
  • Лучшие приложения искусственного интеллекта для малого бизнеса

Кроме того, ознакомьтесь с каталогом программного обеспечения Capterra для машинного обучения, где вы можете прочитать отзывы реальных пользователей и отфильтровать инструменты по их цене или функциям.