빅 데이터 분석에서 기계 학습을 사용하는 방법
게시 됨: 2022-09-30머신 러닝을 통해 조직은 빅 데이터를 수익 증대 인사이트로 전환할 수 있습니다. 빅 데이터와 머신 러닝이 어떻게 관련되어 있고 어떻게 사용하는지 알아보세요.
몇 년 전만 해도 비즈니스 소유자는 고객에게 서비스를 제공하는 방식을 맞춤화하기 위해 기억력에 의존해야 했습니다. Jones가 들어왔을 때, 가게 주인은 그녀가 마지막으로 샀던 것을 기억해야 했고, 그녀가 결국 그것을 다시 가져왔는지 여부, 그리고 그녀가 마지막 방문 동안 그것에 대해 불평했는지 여부를 기억해야 했습니다.
이제 빅 데이터 덕분에 수많은 고객 및 비즈니스 데이터를 손쉽게 이용할 수 있습니다. Jones가 어디에 살고 있는지, 지난 10년 동안 무엇을 샀는지, 얼마를 썼는지, 얼마나 자주 물건을 반품했는지, 그리고 수십 가지 다른 지표를 알고 있습니다. 머신 러닝을 사용하면 이 데이터와 기타 데이터를 비즈니스 향상 통찰력으로 전환할 수 있습니다. 다음은 빅 데이터 및 머신 러닝에 대한 분석과 이를 활용하여 비즈니스를 강화하는 방법입니다.
빅데이터와 머신러닝이란?
빅 데이터와 머신 러닝은 다르지만 밀접하게 연결되어 있습니다.
빅데이터란 무엇인가?
빅 데이터는 전문 도구 없이는 활용이 불가능할 수 있는 거대하거나 엄청나게 복잡한 데이터 세트를 말합니다. 일부 기업은 빅 데이터를 다룰 필요가 없습니다. 예를 들어 판매 및 재고 데이터를 생성하는 3개의 위치가 있는 레스토랑이 있는 경우 이는 "빅 데이터"가 아닙니다.
반면에 동일한 레스토랑에 10개의 위치와 고객이 온라인으로 주문하고 충성도 보상을 활용하고 문자를 통해 고객 서비스 담당자와 채팅할 수 있는 모바일 앱을 추가하면 이제 빅 데이터 상황이 됩니다. 앱 단독으로 다음에 관한 데이터를 생성할 수 있습니다.
- 고객들이 가장 많이 주문하는 메뉴
- 고객이 주문하는 시간
- 고객이 지리적 위치 데이터를 기반으로 음식을 주문하는 곳
- 고객이 거주하는 지역 및 각 마을과 관련된 구매 통계
- 각 위치의 판매 데이터
- 고객이 리워드 포인트를 사용하는 방법
- 성수기 및 휴가철 데이터 구매
이러한 예는 단지 표면을 긁는 것일 뿐입니다. 이런 종류의 앱은 수십 개의 데이터 세트를 생성할 수 있습니다. 또한 정보는 거의 일정하게 스트리밍됩니다. 빅 데이터입니다.
머신 러닝이란 무엇입니까?
머신 러닝(ML)은 컴퓨터를 사용하여 데이터의 패턴을 인식하는 것을 말합니다. 머신 러닝은 단계별로 배치된 일련의 지침인 알고리즘을 사용하여 이를 수행합니다. 기계 학습 모델은 알고리즘의 단계를 사용하여 패턴을 학습합니다. 여기에는 패턴이 깨졌을 때를 인식하고 패턴을 서로 비교하는 방법을 배우는 것도 포함됩니다.
간단한 예로 판매 데이터를 분석하는 기계 학습 알고리즘을 구축한다고 가정합니다. 5년치의 매출 수치가 있습니다. 귀하의 목표는 6월과 8월 사이에 판매할 제품을 파악하여 여름 수익을 극대화하는 것입니다.
기계 학습 시스템을 다음과 같이 프로그래밍할 수 있습니다.
- 각 제품에 대한 판매 데이터를 월별로 집계합니다.
- 6월과 8월 사이에 판매량이 가장 높은 제품을 식별합니다.
- 각 제품 제공과 관련된 매출을 예측합니다.
- 제공할 제품과 6월, 7월, 8월 또는 3개월 전체에 제공해야 하는지 여부를 알려주십시오.
물론 ML에서 한 단계 더 나아가 배송, 인건비, 보관 및 기타 데이터를 포함하여 각 제품에 대한 매출 원가(COGS)를 통합할 수 있습니다. 그러면 ML 모델은 여름 판매량이 가장 높은 제품을 추천할 뿐만 아니라 어떤 제품이 가장 많은 순이익을 가져오는지 알려줄 수 있습니다.
그런 다음 동일한 모델을 사용하여 다음에 대한 판매 통찰력을 제공할 수 있습니다.
- 1년 동안 개별 제품
- 유사한 타겟 시장을 겨냥한 신제품
- 매년 다른 달
빅 데이터에서 머신 러닝이란 무엇입니까?
빅 데이터의 맥락에서 데이터에 패턴이 있을 때마다 머신 러닝을 사용하여 패턴을 발견하고 유용한 통찰력을 제공할 수 있습니다. 또한 ML을 사용하여 알고리즘이 분석하는 패턴을 기반으로 권장 사항을 만들 수 있습니다.
머신 러닝이 빅 데이터와 함께 작동하는 방식
머신 러닝의 가장 인기 있는 응용 프로그램 중 하나는 자율 주행 차량입니다. 자동차는 기계 학습을 사용하여 주변 환경 및 다른 차량에서 수집한 데이터와 관련하여 수행할 작업을 결정합니다.
예를 들어, 자율주행차 내부의 카메라가 정지 신호를 '보면' 이를 그대로 인식하고 자동으로 브레이크를 밟는다. 이 결정의 이면에 있는 프로세스는 여러 기계 학습 알고리즘을 테스트하는 데이터 과학자 그룹에서 시작되었을 가능성이 큽니다. 높은 수준에서 이것은 세 단계를 거칩니다.
1. 훈련
빅 데이터를 분석하기 위해 데이터 과학자는 먼저 훈련 세트를 사용하여 검색해야 하는 하나 이상의 알고리즘을 가르칩니다.
예를 들어 정지 신호가 있는 경우 훈련 세트는 수천 개의 정지 신호 이미지가 됩니다. 데이터 엔지니어는 다른 각도, 다른 조명, 심지어 나무나 다른 물체가 부분적으로 가로막고 있는 정지 신호의 이미지를 제공합니다.
훈련 단계가 끝나면 알고리즘이 정지 신호의 모양과 색상에서 패턴을 식별할 수 있기를 바랍니다. 다시 말해, 정지 신호가 "어떻게 생겼는지" 그리고 다양한 조명과 다양한 각도에서 알고 있습니다.
2. 검증
검증 세트는 ML 모델이 완전히 다른 빅 데이터 세트를 사용하는 정도를 파악하는 데 사용됩니다. 검증 단계의 목적은 ML 모델을 미세 조정하는 방법을 찾는 것입니다.
예를 들어 정지 신호를 식별하도록 설계된 ML 모델이 95% 정확하고 잘못된 모든 이미지가 매우 어둡다고 가정합니다. 그런 다음 개발자는 각 이미지의 대비를 높이는 다른 공식을 사용하여 ML 모델에서 중요한 특성을 더 쉽게 볼 수 있습니다.
3. 테스트
테스트 단계에는 학습 및 검증 단계에서 본 것과 완전히 다른 더 많은 빅 데이터를 ML 모델에 공급하는 작업이 포함됩니다.
예를 들어 정지 신호 모델을 테스트하기 위해 프로그래머는 ML 모델에 다양한 종류의 기호 이미지 250,000개를 표시할 수 있으며 그 중 일부는 정지 신호입니다. 그런 다음 결과를 분석하여 모델이 정지 신호를 얼마나 정확하게 구별할 수 있었는지 확인하고 다른 종류의 표지판을 잘못 식별하는 것을 방지했습니다.

머신 러닝 및 빅 데이터의 과제
ML을 사용하여 빅 데이터를 연구하는 데이터 과학자가 직면한 가장 어려운 두 가지 문제는 부정확성과 윤리적 딜레마입니다.
1. 부정확성
당연히 고급 계산 프로세스가 포함되더라도 빅 데이터 분석에서 기계 학습을 사용할 때마다 시행착오 요소를 겪을 것입니다. 이는 모델을 훈련, 검증 및 테스트할 때 어떤 요인이 결과를 왜곡할 수 있는지 알 수 없기 때문입니다.
예를 들어 정지 신호나 사람의 얼굴과 같은 이미지를 식별할 때 여러 요인이 ML 모델의 성능 저하에 기여할 수 있습니다. 예를 들어, 회사의 보안 시스템을 개선하기 위해 기계 학습 모델을 개발한다고 가정합니다. 특히, 경영진 및 기타 고위 인사의 얼굴을 식별하여 건물의 민감한 영역에 대한 액세스 권한을 부여할 수 있는 모델이 필요합니다. 검증 단계에서 시스템의 정확도는 약 65%에 불과합니다. 그러나 이것은 다음과 같은 여러 변수로 인한 것일 수 있습니다.
- 얼굴의 픽셀화된 이미지
- 초점이 맞지 않는 이미지
- 얼굴 스캔 중 시선을 돌리는 사람
- 선글라스, 안면 마스크, 스카프 또는 기타 식별 결과를 왜곡할 수 있는 것을 착용하기로 결정한 개인
2. 윤리적 딜레마
윤리적인 문제도 있습니다. 예를 들어 HR 부서에서 머신 러닝을 사용하여 가장 적합한 후보자를 식별하고 1,500개의 이력서로 구성된 디지털 스택에서 뽑아낸다고 가정합니다.
ML 모델이 남성만 운영하는 회사 및 채용 부서를 사용하여 훈련된 경우 데이터에 편향이 포함될 수 있습니다. 어떤 남성은 자신의 장점이나 자격 이외의 이유로 다른 남성을 고용하려는 경향이 더 높을 수 있습니다. 따라서 엔지니어가 ML 모델이 찾도록 훈련시킨 "성공적인" 후보자는 대부분의 경우 남성일 수 있습니다. 결과적으로 이 모델은 더 많은 자격을 갖춘 여성 대신 남성을 추천합니다.
비즈니스 맥락에서 빅 데이터와 머신 러닝은 어떤 관련이 있습니까?
비즈니스 컨텍스트에서 머신 러닝은 조직에서 생성하는 빅 데이터를 사용하여 비즈니스 크리티컬 프로세스를 개선하거나 자동화하고 보안과 안전을 강화합니다. 잠재적인 응용 프로그램은 말 그대로 무한하며 생산하는 다양한 종류의 데이터만큼 다양합니다.
예를 들어 공장이나 생산 시설은 기계 학습을 사용하여 공장 현장의 온도 및 습도 수준을 최적화할 수 있습니다. 예를 들어 기계 학습 모델은 다음을 파악할 수 있습니다.
- 직원 생산성을 극대화하는 동시에 계획에 없던 휴식 시간을 최소화하는 온도 및 습도 수준
- 잘못된 조건에서 더 빨리 열화될 수 있는 민감한 장비를 위한 이상적인 온도 및 습도 수준
- HVAC 시스템 및 제습기 운영 비용을 고려할 때 가장 비용 효율적인 온도 및 습도 조건
그런 다음 시스템을 사용하여 대기 시스템을 자동으로 제어하여 최적의 결과를 얻을 수 있습니다.
마케팅에서 머신 러닝과 빅 데이터 분석은 어떻게 사용됩니까?
마케팅은 기계 학습 및 빅 데이터 분석의 가장 유망한 응용 프로그램 중 일부를 제공합니다. 다음 실제 예를 고려하십시오.
Harley Davidson의 Albert는 리드를 2,930% 향상시킵니다.
Harley Davidson은 기계 학습을 사용하여 마케팅 결정을 내리는 Albert라는 로봇을 만들었습니다 [1] . 이것이 알버트가 Harley Davidson의 경영진이 더 밝은 일몰을 향해 달리는 것을 도운 방법입니다.
Harley Davidson은 이전 고객과의 기존 관계를 활용하기를 원했습니다. 그들은 Albert를 사용하여 다음을 분석했습니다.
- 사람들이 구매한 빈도
- 이 고객이 지출한 금액
- 고객이 Harley Davidson의 웹사이트를 탐색하는 데 보낸 시간
그런 다음 Albert는 이 데이터를 사용하여 고객을 서로 다른 세그먼트로 구분했습니다. 그런 다음 마케팅 팀은 각 고객 범주에 대한 테스트 캠페인을 만들었습니다. 캠페인의 성공 여부를 테스트한 후 팀은 이전 고객을 광범위하게 포함하도록 캠페인을 확장했습니다.
그 결과 Harley Davidson은 매출을 40% 증가시켰습니다. 그들은 또한 2,930% 더 많은 리드를 생성했습니다. 그 단서의 절반은 알버트 자신이 직접 확인했습니다. Albert는 유료 고객으로 전환할 가능성이 매우 높은 리드의 프로필을 연구한 다음 다른 사용자의 데이터 프로필을 연구하고 전환율이 높은 고객과 공통점이 많은 "닮음"을 찾아냈습니다.
Jones가 다음에 구매할 제품을 파악하려고 하든 복잡한 생산 시설의 효율성을 최적화하든 상관없이 기계 학습은 겉보기에 무작위로 보이는 빅 데이터를 혁신적인 통찰력으로 전환할 수 있습니다. 약간의 브레인스토밍과 창의적인 사고를 통해 ML과 빅 데이터를 사용하여 경쟁을 앞지르고 조직을 한 단계 끌어올리는 방법을 찾을 수 있습니다.
빅 데이터에 도움이 될 수 있는 도구에 대해 자세히 알고 싶으십니까?
빅 데이터 소프트웨어는 비즈니스가 빅 데이터 및 분석을 최대한 활용할 수 있도록 지원합니다. 최고의 도구 중 일부를 탐색 및 비교하고 리뷰를 읽고 특정 비즈니스 요구 사항에 가장 적합한 솔루션을 찾으십시오.
출처
1. Harley Davidson NYC는 Albert, Albert.ai와 함께 사상 최고 기록을 경신했습니다.