비즈니스 지향 데이터 과학
게시 됨: 2018-12-13그들은 데이터 과학자가 21세기의 가장 섹시한 직업이라고 말합니다(그리고 제가 다양한 컨퍼런스에서 만난 모든 데이터 과학자는 그것을 알고 있습니다). 하지만 머신러닝의 이론적인 부분만 이야기할 때면 자신들이 하는 일이 왜 핫한지 알고 있을까 하는 생각이 들 때가 있다. 그 이유는 데이터 과학자가 데이터, 기술 및 통계 지식을 결합하여 비즈니스 목표를 달성하는 방법을 알고 있기 때문입니다. 그래서 데이터 사이언스를 잘 하려면 먼저 비즈니스를 생각해야 합니다.
기업이 실제로 달성하고자 하는 바를 고려하지 않고 모든 사용자의 터치를 추적하기 위해 분석 도구를 추가한 사례를 알고 있습니다. 그들은 이해하지 못하고 비즈니스를 발전시키는 데 사용할 수 없는 많은 데이터를 수집했습니다.
그런 실수를 하지 마세요! 데이터 과학 프로세스의 각 단계에서 목표와 산업 특성에 대해 생각하십시오. 창의력이 높을수록 성공할 확률이 높아집니다. 이를 증명하기 위해 거대 기업의 애플리케이션에서 영감을 주는 데이터 과학의 몇 가지 예를 보여 드리겠습니다.
데이터 과학 모험을 시작하는 방법
많은 회사가 ML을 사용하여 수입을 늘린다는 소식을 들었지만 어떻게 시작해야 할지 모르십니까? 값비싼 인프라와 (비즈니스 요구 사항을 충족하는 데) 도움이 되지 않는 데이터로 끝나지 않으려면 다음 질문에 대한 답변을 제공하는 것으로 시작해야 합니다.
클라이언트의 비즈니스 목표는 무엇입니까? 이를 달성하기 위해 데이터를 어떻게 사용할 수 있습니까?
그런 다음 어떤 데이터를 추적하고 사용할 수 있는지 계획을 시작할 수 있습니다.
데이터 수집
어떤 데이터를 수집해야 합니까? 이 질문에 대한 대답은 실제로 당신을 놀라게 할 것입니다. Todd Yellin(Netflix의 제품 혁신 부사장)에 따르면 사용할 수 있는 데이터에는 명시적 및 암시적[1]의 두 가지 유형이 있습니다. Netflix의 경우 명시적이란 사용자가 말 그대로 영화를 평가하는 경우입니다. 반면 암시적 데이터는 사용자 클릭 및 앱 사용을 기반으로 하는 행동 데이터입니다. 어떤 유형이 더 가치가 있습니까?
이 질문에 대한 보편적인 대답은 없지만 대부분의 경우 암시적 데이터가 더 유용합니다 . 그리고 그것은… 사람들이 거짓말을 하기 때문입니다.
다큐멘터리를 좋아하고 5/5로 평가하는 남자의 예를 생각해 보십시오. 그러나 데이터에서 알 수 있듯이 그는 이 장르를 1년에 한 번 봅니다. 동시에 그는 매주 금요일 저녁 인기 시리즈를 시청합니다. 그리고 그가 일을 마치고 피곤해서 소파에서 긴장을 풀고 싶기 때문입니다. 그렇다면 이러한 추천 시스템을 준비하기 위해 어떤 데이터를 사용해야 할까요? 평가 또는 사용자 행동?
이 질문에 답하려면 개발의 비즈니스 목표에 대해 생각해야 합니다. Netflix의 목표는 사용자가 더 많은 영화를 보도록 권장하는 것입니다. 그들은 인기있는 별 다섯 개 등급 시스템으로 시작했습니다. 언급된 사용자가 2차 세계 대전에 대한 영화 대신 친구를 볼 가능성이 더 높다는 것을 깨달았을 때 사용자 행동을 기반으로 한 추천 시스템을 개발했습니다. 그들은 또한 별 5개 등급을 낮추고 더 단순한 이진 엄지손가락 업, 엄지손가락 다운 시스템으로 교체했습니다.
이 예에서 볼 수 있듯이 수집된 데이터는 산업 특수성을 고려하여 선택해야 하며 사용자의 결정과 요구를 이해하기에 충분한 정보를 가져와야 합니다. 그러나 여기서 또 다른 문제가 발생합니다. 행동 데이터, 텍스트 및 기타 구조화되지 않은 데이터는 구조화된 모델보다 기계 학습 모델에서 분석하고 사용하기가 더 어렵습니다. 이제 기능 엔지니어링에 대해 이야기할 시간입니다.
피처 엔지니어링
데이터 과학에서 피쳐 엔지니어링이 얼마나 중요한지 보여주기 위해 Google Brain 공동 설립자이자 deeplearning.ai의 설립자인 Andrew Ng의 말을 인용하고 싶습니다.
기능을 찾는 것은 어렵고 시간이 많이 걸리며 전문 지식이 필요합니다. 응용 기계 학습은 기본적으로 기능 엔지니어링입니다. [2].
https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf
데이터 처리에 대한 목적 중심 접근 방식의 흥미로운 예는 사용자가 0에서 10까지 호텔을 평가할 수 있는 Booking.com입니다. 하지만 파티 동물이 호텔을 높게 평가한다면 자녀가 있는 가족에게 좋은 선택일까요? 반드시는 아닙니다.

다행히도 우리가 필요로 하는 더 많은 정보가 포함된 사용자 의견도 있습니다. Booking.com은 감정 분석 및 주제 모델링을 사용하여 댓글이 달린 호텔의 강점과 약점, 숙박 시설에 대한 사용자의 선호도를 추출합니다.
다음 예를 살펴보겠습니다.

토픽 객실 시설에 부정적인 감정이 있습니다(사용자는 샤워 시설, 침대, Wi-Fi 및 에어컨에 대해 불평합니다). 동시에 이 사용자는 호텔, 직원, 음식의 가격에 대한 가치를 칭찬합니다. 시스템은 댓글에 언급되지 않은 항목도 분석하므로 사용자에게 중요하지 않을 수 있습니다. 이 예에서는 야간 유흥이 될 수 있습니다.
이러한 인사이트를 바탕으로 플랫폼은 유사한 프로필을 가진 사용자, 이 경우 합리적인 가격에 평화로운 호텔에서 휴가를 보낼 장소를 찾는 자녀가 있는 가족에게 더 적합한 호텔을 제공할 수 있습니다. 또한 Booking.com은 댓글을 정렬하여 시청자에게 가장 흥미로운 정보를 맨 위에 표시합니다.
이것은 윈-윈 상황으로 이어집니다. 사용자는 특정 요구에 맞는 제안을 더 빠르고 쉽게 찾을 수 있으며 이러한 제안은 사용자가 구매할 가능성이 더 높기 때문에 플랫폼은 이익을 얻습니다.

데이터 사이언스가 궁금하세요?
더 알아보기데이터 제품
데이터 제품을 배포하여 만족스러운 결과를 얻었습니까? 안주할 때가 아닙니다. Netflix의 예에서 볼 수 있듯이[3], 시스템을 개선하기 위한 지속적인 작업은 상당한 이익을 가져올 수 있습니다. 적절한 영화 추천으로 충분합니까? 우리가 무엇을 더 할 수 있습니까?
Netflix의 기본 접근 방식 중 하나는 영화를 추천할 뿐만 아니라 특정 사용자에게 가장 어필할 수 있는 이미지로 영화를 설명하는 것입니다. Good Will Hunting 을 추천한다고 가정해 보겠습니다. 과거에 로맨스 코미디를 많이 본 경우 키스하는 커플의 이미지를 볼 수 있지만 코미디 팬이라면 인기있는 미국 코미디언의 장면을 볼 가능성이 큽니다.

이 접근 방식을 사용하면 수많은 선택 항목을 스크롤하는 사용자가 주의를 끄는 영화를 발견할 가능성이 훨씬 높아집니다.
이 및 기타 추천 전략은 놀라운 결과를 가져 옵니다. 플랫폼 콘텐츠의 80% 이상이 알고리즘 추천을 기반으로 합니다 . 사용자가 볼 것이 부족하다는 것을 의미합니다. 한 프로그램이 끝나면 Netflix에서 다음 프로그램을 제안합니다.
사용자가 구독을 취소할 가능성이 훨씬 적기 때문에 경쟁 우위를 제공하는 비즈니스에서. 이 데이터 과학의 매우 성공적인 적용은 대부분 비즈니스 및 앱 사용자에 대한 충분한 이해 덕분에 이루어졌습니다.
요약
올해 데이터 과학 컨퍼런스 중 하나에서 신용 위험 예측에 관련된 연사는 다음과 같이 말했습니다.
사람들이 기본적으로 직업이 뭐냐고 물으면 나는 데이터를 기반으로 비즈니스 가치를 가져온다고 대답합니다.
저에게 이것은 데이터 과학에 대한 최고의 정의 중 하나입니다. 이론적인 토대에만 의존해서는 안 되며 특히 비즈니스를 지향해야 합니다. 좋은 기계 학습 응용 프로그램을 만들고 싶다면 사용자가 시스템에서 어떻게 행동하고 무엇이 필요한지 생각해야 합니다. 이를 염두에 두면 비즈니스 목표를 성공적으로 달성할 수 있습니다.