Что такое машинное обучение? Ваш основной глоссарий бизнес-аналитики

Опубликовано: 2022-05-07

Я всегда считал весеннюю уборку слишком малой и слишком запоздалой. Для меня январь — это когда вы заказываете, расставляете приоритеты и начинаете отвечать на вопросы наступающего года. Вот почему я выбрал январь, чтобы ответить на вопрос, который у вас, возможно, возникал некоторое время назад: что такое машинное обучение?

Я отвечу на этот вопрос, а также определю некоторые другие термины, которые вам необходимо знать, чтобы быть в курсе событий 2017 года. Если вам интересно, что может сделать для вас программное обеспечение для бизнес-аналитики , сначала вам нужно знать эти основные термины . .

Я поставил машинное обучение на первое место, так как оно входит в десятку лучших стратегических технологических тенденций Gartner на 2017 год, но остальные записи расположены в алфавитном порядке.

Машинное обучение

До машинного обучения компьютерам нужно было говорить (запрограммировать), как думать. Благодаря машинному обучению компьютеры могут думать (вроде как) сами за себя.

Недавно я разговаривал с Майклом Финли, руководителем отдела машинного обучения в компании AnswerRocket , занимающейся разработкой программного обеспечения для бизнес-аналитики, который помог мне в разработке. До машинного обучения большая часть программного обеспечения «работала так, как было запрограммировано: люди превращали инструкции в компьютерный код, и компьютер делал то, что ему говорил этот код». Очень простым примером может служить калькулятор: вы вводите в калькулятор числа, говорите, что делать (складывать, вычитать), и калькулятор выдает вам результаты. Однако с помощью машинного обучения программное обеспечение может адаптироваться. Финли продолжает: «Программное обеспечение с машинным обучением не делает то же самое в тот день, когда вы его устанавливаете, и на десятый или сотый день, когда вы его запускаете». Если значения, подаваемые на компьютер, изменяются, программное обеспечение адаптируется к этим значениям. Компьютер с машинным обучением учится их включать.

Предоставлено потрясающим Андре Пинто и Anthill Comics.

Финли характеризует машинное обучение как программное обеспечение, которое знает, как обращаться с понятием «нравится», например: «Я хочу услышать песню, похожую на последнюю, которую я только что слышал». Концепция проста для людей, но сложна для компьютеров. Финли объяснил, что компьютеры хорошо понимают, какие числа больше, а какие меньше, и сопоставляют числа и имена, но у них возникают проблемы с идеей подобия. Машинное обучение помогает компьютерам понять, почему одна вещь «похожа» на другую. Понимание сходства с помощью машинного обучения особенно полезно для прогнозирования желаний клиентов.

Машинное обучение стоит за следующей песней, которую вы услышите на Pandora, или за фильмом, который предлагает Netflix. Алгоритмы машинного обучения Pandora и Netflix «скармливают» ваш выбор (и фактические «лайки» в случае Pandora) и используют это, чтобы предсказать, какие похожие песни или шоу вам могут понравиться.

Скармливайте этим алгоритмам машинного обучения разные данные, и они будут реагировать по-разному. Если ваша обычная диета из фильмов ужасов внезапно и необъяснимо включает романтическую комедию, алгоритмы машинного обучения Netflix отреагируют на эти данные и начнут предлагать другие романтические комедии или романтические фильмы ужасов.

Помимо снижения вкуса к фильмам, почему машинное обучение имеет значение для малого и среднего бизнеса? Это может помочь им конкурировать с более крупными конкурентами. Программное обеспечение BI с машинным обучением получает новые числа при каждом обновлении. Вы основываете стратегию не на цифрах годового отчета, вы основываете ее на информации почти в реальном времени и алгоритмах, которые знают, как адаптироваться к этим меняющимся данным. Финли объясняет, что традиционные, однородные способы масштабирования бизнеса могут быть коренным образом изменены с помощью машинного обучения:

«Возможно, я изложил лучшие практики и хочу повторить процессы. Но что, если бы вы могли каждый день излагать лучшие практики, если бы у вас была информация, чтобы менять их и каждый день переформулировать свою стратегию? У вас есть данные благодаря машинному обучению, которое может переписывать стратегию каждый день, и именно так малые и средние предприятия действительно едят обед крупных парней».

Для малого и среднего бизнеса, заинтересованного в гибкой бизнес-стратегии, машинное обучение может быть больше, чем способ остаться в живых. Это могло бы стать способом начать отбирать часть доли рынка у уже существующих игроков.

  • Специальная аналитика
  • Специальный запрос
  • Расширенная аналитика
  • Искусственный интеллект
  • Большие данные
  • Контекстные данные
  • Точка данных
  • Качество данных
  • Визуализация данных
  • Хранилище данных
  • База данных
  • Панели инструментов
  • Детализация
  • ETL
  • Метаданные
  • Метрики
  • Современный BI
  • Традиционный BI
  • SaaS/облачное программное обеспечение
  • Нарезка и кости
  • SQL
  • Условия, которые вы хотите знать…

Специальная аналитика

Специальная аналитика — это анализ, когда он вам нужен, на уровне, понятном неспециалисту, не связанному с ИТ.

Если доступная бизнес-аналитика кажется очевидным желанием, это не всегда достижимо. Долгое время специалисты по бизнес-аналитике должны были уметь «говорить на компьютере» (т. е. писать на языке программирования), чтобы запрашивать программы бизнес-аналитики. Не знали, как программировать на SQL, R или Python? Спросите кого-нибудь в IT, кто делает. Тогда подождите. А потом ждать, пока сработают программы бизнес-аналитики, а потом еще немного ждать анализа.

К счастью, BI наконец созрела для специальной аналитики. : с этой системой вам не нужно ждать, пока ИТ-специалисты или более медленные темпы создания традиционных отчетов получат необходимые данные. Это делает вашу и их работу проще и менее напряженной.

Если у вас нет ИТ-персонала, эту проблему решит специальная аналитика. Специальная аналитика также ускоряет получение информации (это еще одно модное слово, которое вы можете встретить; оно означает, что для получения необходимой информации требуется меньше времени).

Специальный запрос

«Запросы» — это вопросы, на которые вы можете задать свое программное обеспечение для бизнес-аналитики. Например, вы можете запросить у своего программного обеспечения BI алфавитный список всех кареглазых клиентов, родившихся с 1970 года. Вы могли бы так же легко назвать запрос вопросом, но как часто вы произносите «запрос» в разговоре?

Специальный запрос — это запрос, который вы можете запросить, когда вам это нужно. Как и в случае с более старой бизнес-аналитикой, старые запросы требовали, чтобы кто-то из ИТ задавал их. Запросы также, как правило, выполнялись как часть регулярных отчетов, которые вы получали ежемесячно или ежегодно. Со старым программным обеспечением BI вам придется задавать этот запрос на языке программирования. SQL был давним стандартом бизнес-аналитики; в наши дни популярны R и Python.

Вы можете смотреть на компьютерные программы, включая BI, как на ветви бюрократии, от Министерства юстиции до HHS. Технически они нужны для того, чтобы что-то делать, но у каждого из них свой собственный язык, и они работают по-своему. Программист подобен бюрократу, который говорит на языке и знает, как ориентироваться в каждой программе/отделе.

Расширенная аналитика

Этот термин на самом деле выходит за рамки бизнес-аналитики. «Бизнес-разведка» традиционно занимается анализом того, что произошло. Расширенная аналитика идет дальше, будь то прогнозирование того, что произойдет в будущем, или анализ деталей и факторов, обычно не связанных с бизнес-аналитикой. Некоторыми примерами расширенной аналитики являются анализ данных и текста , предиктивная аналитика , прогнозирование , аналитика местоположения , анализ настроений и машинное обучение.

Искусственный интеллект

Машинное обучение — это одна часть ИИ, но ИИ — это гораздо более широкая концепция. ИИ включает в себя все, что можно назвать « разумом, демонстрируемым машинами ». «Интеллект» в смысле ИИ означает способность что-то делать. Таким образом, общепринятое понимание «интеллекта» как простого знания — это не тот тип интеллекта, который можно найти в ИИ.

«Что-то», что может сделать ИИ, уже разнообразно. Например, Daisy Intelligence использует ИИ для изучения данных розничных продавцов, а затем дает рекомендации, которые, по их утверждению, могут «увеличить продажи на 5% и более». Если, как и я, вам нравится планировать так же, как ждать в DMV, виртуальный помощник, такой как Эми , который может планировать встречи в зависимости от предпочтений участников, может стать вашим лучшим новым воображаемым другом.

Большие данные

Большие данные — это очень большие наборы данных. Хотя я обычно согласен со Стивеном Кингом в том, что « дорога в ад вымощена наречиями », это «чрезвычайно» оправдано. Небольшой объем данных будет, скажем, короткой книгой. Размер PDF-файла первой книги о Гарри Поттере составляет около одного мегабайта (МБ).

Большие данные — это что-то вроде петабайта данных. Продолжая пример с книгой, все, что было записано с начала истории, составляет 50 петабайт . Мегакорпорации, такие как Google, имеют дело с петабайтами. Система Google Mesa , которая отслеживает рекламный трафик Google, отслеживает петабайты данных.

Контекстные данные

Контекстные данные — это дополнительные данные о человеке, месте или событии (которые на языке данных называются «сущностями»). Контекстные данные помогают уточнить, что бизнес знает о потенциальном клиенте, и даже предсказать, чего он может хотеть.

Хотя это не бизнес, Манчестерский университет в Англии использует контекстуальные данные в процессе приема, чтобы « создать полное и всестороннее представление о ваших достижениях и потенциале ». Наряду с регистрационной формой учащегося UM учитывает такие факторы, как почтовый индекс кандидата, качество школы, в которой вы сдавали экзамены, и « были ли вы под присмотром или под присмотром более трех месяцев».

Для бизнеса контекстные данные могут помочь в продажах. В качестве очень широкого примера, контекстуальные данные о прошлом покупателе, основанные на погоде в его местоположении, могут увеличить доход. Покупатель в Тасконе, штат Аризона, с большей вероятностью купит фруктовое мороженое в октябре, чем в Интернэшнл-Фолс, штат Миннесота .

Точка данных

Точка данных — это отдельный фрагмент данных. Точка данных — это любая автономная единица или опорная точка среди данных, которые вы отслеживаете. Единой точкой данных может быть что угодно, от « размера инвестиции » до одного клика по объявлению, которое вы купили в Google. В случае с Uber местоположение является важной точкой данных — настолько важной, что они фактически отслеживают ее после того, как ваша поездка завершена .

Если вы знакомы с ключевыми показателями эффективности , вы знакомы с точками данных. KPI измеряют определенные типы точек данных, например доход или время, необходимое для завершения проекта.

Качество данных

Качество данных — это мера полезности ваших данных. Данные высокого качества являются чистыми, организованными и доступными. Если данные библиотеки — это ее книги, в библиотеке с высококачественными данными будут книги, которые нужны и нужны населению, в хорошем состоянии и на полках в нужных местах.

Существует шесть аспектов качества данных:

  • Полнота
  • Уникальность
  • Срок действия
  • Своевременность
  • Последовательность
  • Точность

Визуализация данных

Визуализация данных — это любое изображение, визуальное или графическое изображение, отображающее ваши данные. Наиболее распространены круговые диаграммы и гистограммы. Однако существует гораздо более широкий спектр визуализаций. Критерии оценки Gartner для платформ бизнес-аналитики и аналитики за 2016 год (защищенные платным доступом; оно того стоит) оценивают более продвинутые типы диаграмм как «предпочтительные» элементы для поиска в вашем решении BI. Вот некоторые из этих более качественных и предпочтительных типов диаграмм:

  • Графики Маримекко
  • Графики X/Y
  • Сетевые диаграммы
  • Диаграммы Парето
  • Облака слов

Хранилище данных

Хранилище данных — это компьютерная система, в которой хранятся и систематизируются данные из различных баз данных и транзакционных систем. Вы часто будете видеть термин с «предприятием» на переднем плане, так как вам понадобится большой объем данных масштаба предприятия, чтобы нуждаться в хранилище данных.

База данных

База данных — это данные, организованные таким образом, чтобы вы могли легко получить то, что вам нужно. Вы когда-нибудь были на IMDB ? Конечно, есть. Это база данных: фильмы, актеры, режиссеры, продюсеры, все организовано для удобного поиска, например, когда вам нужно сжульничать в игре шести степеней Кевина Бэкона .

Панели инструментов

Эта картинка находится перед этим объяснением, потому что так проще показать, как выглядит панель инструментов.

Для формального определения: информационная панель — это визуальное представление данных, которые вы отслеживаете. Ваша программа BI обязательно должна иметь панель мониторинга. Вы бы не купили машину без приборной панели. То же самое касается программного обеспечения BI.

Когда вы покупаете программное обеспечение для бизнес-аналитики, убедитесь, что информационные панели вашей программы соответствуют этим двум базовым критериям , рекомендованным Gartner (защищено платным доступом; оно того стоит):

  • «Возможность создавать информационные панели как минимум с базовыми типами диаграмм, включая таблицы, гистограммы, линейные диаграммы, диаграммы с областями и круговые диаграммы, без использования сторонних опций, кода или сценариев».
  • Дизайн «что видишь, то и получишь» (WYSIWYG), возможность создавать панель мониторинга и анализировать данные, не зная, как программировать.

Детализация

Детализация относится к способности брать общую информацию, например данные о годовых продажах, и детализировать ее по месяцам, неделям или даже дням. «Детализация» означает, что вы можете перейти от общего к частностям, которые часто определяют разницу между информацией и пониманием. Детализация — это что-то вроде бизнес-аналитики в старом фильме «Силы десяти».

ETL

ETL — или извлечение, преобразование, загрузка — происходит между сбором данных и размещением этих данных в хранилище данных.

Необходимость «извлекать» исходит из того факта, что данные собираются в базах данных или программном обеспечении ERP до того, как они попадут в хранилище данных. Необходимость преобразования возникает из-за того, что эти многочисленные источники данных часто имеют разные форматы, и их необходимо преобразовать в правильный формат для хранения и поиска в хранилище данных. Необходимость загрузки говорит сама за себя; вам нужно поместить его в хранилище данных, прежде чем вы сможете искать и сравнивать один источник данных с другим.

Метаданные

Метаданные — это данные о данных. Если это звучит как мета, то это… это метаданные !

Но серьезно.

Метаданные — это информация о ваших данных. Есть три категории:

  • Технические: технические сведения о ваших данных, такие как их модели, формат и меры.
  • Бизнес: описания данных в удобном для пользователя виде (т. е. на простом английском языке).
  • Процесс: данные, которые говорят вам, что было сделано с какими фрагментами данных и когда.

Метрики

«Метрика» — это просто красивое слово для всего, что вы измеряете.

Вы отслеживаете свою чистую прибыль? Это метрика. Следите за тем, сколько людей используют программное обеспечение BI в вашей компании? Это тоже показатель. Следите за скоростью разговора? Это тоже показатель. Хитрость с метриками заключается в том, чтобы выбрать те, которые лучше всего подходят для вашей компании. У каждой компании разные потребности, и при выборе показателей рекомендуется учитывать свои потребности и приоритеты .

Современный BI

Термин современная бизнес-аналитика исходит от Gartner , который определяет его следующим образом :

Современная платформа BI поддерживает разработку аналитического контента с помощью ИТ. Он определяется автономной архитектурой, которая позволяет нетехническим пользователям автономно выполнять полный спектр аналитических рабочих процессов от доступа к данным, приема и подготовки до интерактивного анализа и совместного обмена информацией.

Проще говоря, современная BI ставит бизнес-пользователя на первое место. Вам не нужно будет зависеть от кого-то из ИТ, или вам нужно будет зависеть от них гораздо меньше, чтобы использовать современную программу BI. В то время как традиционные, более старые программы BI были настроены так, чтобы позволить ИТ-специалистам создавать контент, например, современные программы BI позволяют бизнес-пользователям легко создавать контент самостоятельно.

Традиционный BI

Традиционные программы бизнес-аналитики сильно зависят от ИТ-персонала. Обычно они требуют, чтобы пользователи знали SQL (язык программирования, см. ниже), и для получения ответов требуется гораздо больше времени, поскольку вам нужно вручную вводить несколько запросов на этом языке. Как таковые, они гораздо менее гибкие, и такие эксперты, как Gartner, предлагают покупателям вместо этого искать функции, которые можно найти в современных программах бизнес -аналитики .

SaaS/облачное ПО

Программное обеспечение как услуга — это модель, в которой покупатели покупают лицензии на использование программного обеспечения, а не покупают и не устанавливают его. Большая часть программного обеспечения SaaS создается через Интернет (т. е. в облаке), что снижает первоначальные затраты на покупку и установку. Это также избавляет от необходимости контролировать серверы, на которых хранится программное обеспечение; компания SaaS отслеживает любые потенциальные сбои.

Нарезка и кости

Нарезка и нарезка больших наборов данных либо для просмотра данных с разных точек зрения, либо для более подробного изучения определенных частей. Возможности нарезки и нарезки — это то, что, например, позволяет вам проверять данные по неделям, затем по месяцам, а затем по отдельным дням. Вместо того, чтобы ждать отчета, функция «нарезка и нарезка» позволяет вам взять на себя инициативу и проверить конкретные данные, когда вам это нужно.

SQL

Произносится как «продолжение», SQL — это распространенный язык программирования, используемый для получения информации из баз данных. Если вы говорите по-английски, база данных говорит на SQL, и она будет знать, как отвечать только на вопросы, сформулированные таким образом. Если, конечно, ваше программное обеспечение для бизнес-аналитики не имеет запросов на естественном языке (NLQ), которые позволяют вам задавать вопросы так же, как и в поисковой системе.

Условия, которые вы хотите знать…

Или что, по вашему мнению, принесет пользу читателям этого списка? Дайте мне знать их в комментариях ниже. В идеале раздел комментариев мог бы стать еще одним местом, где люди могут запрашивать определения, а я — их предоставлять.

Если вы хотите узнать, как эти условия могут помочь вам лучше, ознакомьтесь с одним из вариантов в каталоге программного обеспечения для бизнес-аналитики Capterra и обратитесь к поставщику.