Бизнес-ориентированная наука о данных

Опубликовано: 2018-12-13

Говорят, Data Scientist — самая сексуальная профессия 21 века (и все Data Scientist, которых я встречал на различных конференциях, это знают). Но когда они говорят только о теоретической части машинного обучения, мне иногда интересно, знают ли они, почему их работа горяча. Причина в том, что Data Scientist знает, как сочетать данные, технические навыки и статистические знания для достижения бизнес-целей. Поэтому, чтобы хорошо заниматься наукой о данных, вам нужно сначала подумать о бизнесе.

Я знаю случаи, когда компании добавляли аналитические инструменты для отслеживания каждого прикосновения пользователя, не задумываясь о том, чего они на самом деле хотят достичь. Они собрали много данных, которые не понимали и не могли использовать для продвижения своего бизнеса.

Не делайте таких ошибок! Подумайте о своих целях и отраслевой специфике на каждом этапе процесса Data Science. Чем более вы изобретательны, тем больше у вас шансов на успех. Чтобы доказать это, я покажу вам несколько вдохновляющих примеров Data Science в приложениях гигантов…

Как начать свое приключение в науке о данных

Вы слышали, что многие компании используют машинное обучение для увеличения своих доходов, но не представляете, с чего начать? Чтобы не получить дорогостоящую инфраструктуру и бесполезные (для удовлетворения потребностей вашего бизнеса) данные, вы должны начать с ответов на следующие вопросы:

Каковы бизнес-цели клиента? Как мы можем использовать данные для их достижения?

Затем вы можете начать планировать, какие данные можно отслеживать и использовать.

Сбор данных

Какие данные мы должны собрать? Ответ на этот вопрос может вас действительно удивить. По словам Тодда Йеллина (вице-президента Netflix по инновациям в продуктах), можно использовать два типа данных : явные и неявные [1]. В случае с Netflix явным является то, что пользователь буквально оценивает фильм. С другой стороны, неявные данные — это поведенческие данные, основанные на кликах пользователей и использовании приложения. Какой тип ценнее?

Универсального ответа на этот вопрос нет, но в большинстве случаев неявные данные были бы полезнее . И это потому, что… люди лгут.

Рассмотрим пример человека, который говорит, что любит документальные фильмы, и ставит им 5/5. Но, как показывают данные, он смотрит этот жанр раз в год. При этом каждую пятницу вечером он смотрит популярные сериалы. А все потому, что он устал после работы и просто хочет расслабиться на диване. Итак, какие данные следует использовать для создания такой системы рекомендаций: рейтинг или поведение пользователей?

Чтобы ответить на этот вопрос, нам нужно подумать о бизнес-цели его развития. Цель Netflix — побудить пользователя смотреть больше фильмов. Они начали с популярной пятизвездочной рейтинговой системы. Когда они поняли, что упомянутые пользователи с большей вероятностью увидят «Друзей» вместо фильма о Второй мировой войне, они разработали систему рекомендаций, основанную на поведении пользователей. Они также отказались от пятизвездочного рейтинга и заменили его более простой бинарной системой «палец вверх-вниз».

Как показывает этот пример, собранные данные должны быть отобраны с учетом отраслевой специфики и должны содержать достаточно информации, чтобы понять решения и потребности пользователей. Но здесь мы сталкиваемся с другой проблемой: поведенческие данные, тексты и другие неструктурированные данные сложнее анализировать и использовать в моделях машинного обучения, чем структурированные. Итак, пришло время поговорить об инженерии признаков.

Разработка функций

Чтобы показать, насколько важна разработка функций в науке о данных, я хотел бы процитировать Эндрю Нг, соучредителя Google Brain и основателя deeplearning.ai:

Придумывать фичи сложно, долго, требует экспертных знаний. Прикладное машинное обучение — это, по сути, разработка функций. [2].

https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf

Интересным примером целенаправленного подхода к обработке данных является Booking.com, где пользователи могут оценивать отели от 0 до 10. Но если тусовщик высоко оценивает отель, будет ли это хорошим выбором для семей с детьми? Не обязательно.

К счастью, есть также комментарии пользователей, которые содержат больше необходимой нам информации. Booking.com использует анализ настроений и тематическое моделирование, чтобы выявить сильные и слабые стороны оставленного в комментариях отеля, а также предпочтения пользователей в отношении размещения.

Рассмотрим этот пример:

Обзор бронирования

Тема Удобства в номере имеет негативное отношение (пользователь жалуется на душ, кровать, Wi-Fi и кондиционер). В то же время этот пользователь хвалит Value за цену отеля, персонала и еды. Система также анализирует то, что не было упомянуто в комментарии и поэтому, вероятно, не важно для пользователя — в нашем примере это может быть ночная жизнь.

Благодаря этим знаниям платформа может предложить отели, более подходящие для пользователей с похожим профилем, в данном случае для семьи с детьми, которая ищет место для отдыха в тихом отеле по разумной цене. Более того, Booking.com сортирует комментарии так, чтобы наиболее интересная для зрителя информация отображалась вверху.

Это приводит к беспроигрышной ситуации: пользователи могут быстрее и легче находить предложения, адаптированные к их конкретным потребностям, а платформа получает прибыль, потому что эти предложения пользователи чаще покупают.

Интересуетесь наукой о данных?

Учить больше

Продукт данных

Вы развернули продукт данных с удовлетворительными результатами? Не время успокаиваться. Как показывает пример Netflix [3], постоянная работа над совершенствованием системы может принести значительный выигрыш. Достаточно ли надлежащей рекомендации фильма? Что еще мы могли сделать?

Один из нестандартных подходов Netflix — не только рекомендовать фильмы, но и иллюстрировать их изображением, которое будет наиболее привлекательным для данного пользователя. Допустим, вам рекомендуют Good Will Hunting . Если вы в прошлом смотрели много ромкомов, вы могли увидеть изображение целующейся парочки, а если вы любитель комедий, то, скорее всего, увидите популярного американского комика:

Система рекомендаций Нетфликс

При таком подходе пользователь, просматривающий множество вариантов, с гораздо большей вероятностью найдет фильм, который привлечет его внимание.

Эта и другие стратегии рекомендаций дают поразительные результаты — более 80% контента платформы основано на алгоритмических рекомендациях . Это означает, что пользователю трудно исчерпать вещи для просмотра. Когда одно шоу заканчивается, Netflix предлагает следующее.

В их бизнесе это дает конкурентное преимущество, потому что пользователи гораздо реже отменяют свои подписки. Это чрезвычайно успешное применение науки о данных было достигнуто в основном благодаря хорошему пониманию их бизнеса и пользователей приложения.

Резюме

На одной из конференций по науке о данных в этом году спикер, занимающийся прогнозированием кредитных рисков, сказал:

Когда меня спрашивают, что в основном является моей работой, я отвечаю: я приношу бизнес-ценности на основе данных.

Для меня это одно из лучших определений науки о данных. Он не должен ориентироваться только на свои теоретические основы, но особенно на бизнес. Если вы хотите создать хорошее приложение машинного обучения, вам нужно подумать о том, как пользователи ведут себя в вашей системе и что им нужно. Имея это в виду, вы успешно достигнете своих бизнес-целей.