지도 학습 vs 비지도 학습: 당신에게 적합한 머신 러닝 모델은?

게시 됨: 2022-05-07

기계 학습이 신비스러울 필요는 없습니다. 이 기사에서는 가장 일반적인 두 가지 유형과 사용 사례를 분석할 것입니다.

사람과 기계가 서로 데이터를 공유

비즈니스 리더로서 새로운 기술을 채택하면 문제점을 완화하고 비즈니스 경쟁력을 높일 수 있다는 것을 알고 있습니다. 그렇기 때문에 격변의 1년 동안 많은 기업이 이를 극복하기 위해 디지털 혁신으로 눈을 돌렸습니다.

또한 비즈니스를 미래 지향적으로 만들 수 있는 머신 러닝과 같은 새로운 기술의 잠재력을 알고 있을 수도 있습니다. 그러나 구매자는 주의하십시오. 기계 학습의 응용 프로그램을 이해하지 못하면 사용할 수 없는 결과에 돈을 낭비할 위험이 있습니다. 아래의 예를 들어 우리가 의미하는 바를 확인하십시오.

이 기사 작성을 준비하기 위해 NLG(자연어 생성) 도구를 사용하여 지도 학습과 비지도 학습을 가장 잘 구분하는 방법을 이해하는 데 도움이 되었습니다. 다음은 NLG에서 발췌한 내용입니다.

"각 비지도 학습 모델은 상관 계수, 위양성 응답, 통계적으로 매우 유용한 데이터(또는 이에 크게 의존)를 기반으로 하는 앞서 텐소롱 행렬을 제공하며 그래프와 트리를 사용하여 차원 축소에 사용되어 자체 한계 데이터 포인트를 생성합니다."

혼란 스럽다? 우리도. 그러나 NLG 도구 문장의 당혹스러운 구문에도 불구하고 인공 지능(AI)을 사용한 이 실험은 완전히 도움이 되지 않았습니다. AI에서 최상의 결과를 얻으려면 올바른 응용 프로그램을 찾는 것이 중요하다는 것을 깨닫게 되었으며, 이것이 바로 우리가 귀하를 돕기 위해 이 가이드를 작성한 이유입니다.

Fast Data Science의 데이터 과학 컨설턴트인 Thomas Wood와 이야기를 나누며 주제를 이해하기 쉬운 용어로 설명했습니다. Wood의 도움을 받아 두 가지 일반적인 기계 학습 방법인 지도 학습과 비지도 학습의 차이점과 각 방법에 가장 적합한 사용 사례를 설명합니다.

기계 학습이 처음이신가요? 이 문서의 나머지 부분을 살펴보기 전에 다음 주요 개념을 검토하세요.

  • 머신 러닝(ML) 은 데이터에서 지식을 추출하기 위해 알고리즘과 통계 모델을 사용하여 문제를 해결하는 인공 지능(AI)의 하위 집합입니다. 일반적으로 모든 기계 학습 모델은 지도 학습 또는 비지도 학습으로 분류할 수 있습니다.
  • 기계 학습의 알고리즘 은 기계 학습 모델을 생성하기 위해 데이터에서 실행되는 절차입니다.
  • 기계 학습의 모델 은 데이터에서 실행되는 기계 학습 알고리즘의 출력입니다. 즉, 모델은 기계 학습 알고리즘에 의해 학습된 내용을 나타냅니다.

지도 학습과 비지도 학습의 주요 차이점은 무엇입니까?

한 문장으로 요약해야 한다면 다음과 같습니다. 지도 학습과 비지도 학습의 주요 차이점은 지도 학습은 레이블이 지정된 데이터를 사용하여 결과를 예측하는 데 도움이 되는 반면 비지도 학습은 그렇지 않다는 것입니다.

그러나 두 가지 접근 방식 사이에 추가적인 뉘앙스가 있으므로 상황에 가장 적합한 접근 방식을 선택할 수 있도록 계속해서 명확하게 설명하겠습니다.

지도 머신 러닝의 작동 원리

위에서 언급했듯이 지도 학습은 레이블이 지정된 데이터를 사용하여 모델을 훈련합니다. 그러나 그것이 이론상으로 무엇을 의미합니까? 시작하기 위해 몇 가지 예를 살펴보겠습니다.

지도 학습을 사용하면 모델에 입력과 해당 출력이 모두 제공됩니다. 다른 종류의 과일을 식별하고 분류하기 위해 모델을 훈련한다고 가정합니다. 이 예에서는 모양, 크기, 색상 및 향미 프로파일과 함께 여러 과일 사진을 입력으로 제공합니다. 다음으로 각 과일의 이름이 있는 모델을 출력으로 제공합니다.

결국 알고리즘은 과일의 특성(입력)과 이름(출력) 사이의 패턴을 선택합니다. 이러한 일이 발생하면 모델에 새 입력이 제공될 수 있으며 출력을 예측합니다. 분류 라고 하는 이러한 종류의 지도 학습이 가장 일반적 입니다.

비지도 머신 러닝의 작동 원리

반대로, 비지도 학습 은 레이블이 지정되지 않은 데이터에서 자체적으로 패턴을 식별하도록 모델을 가르치는 방식으로 작동합니다. 즉, 입력은 제공되지만 출력은 제공되지 않습니다.

이것이 어떻게 작동하는지 이해하기 위해 위에 제공된 과일 예제를 계속 진행해 보겠습니다. 비지도 학습을 사용하면 모델에 입력 데이터 세트(과일의 사진 및 특성)를 제공하지만 출력(과일의 이름)은 제공하지 않습니다.

모델은 적절한 알고리즘을 사용하여 과일을 가장 유사한 기능에 따라 여러 그룹으로 나누도록 자체 훈련합니다. 클러스터링 이라고 하는 이러한 종류의 비지도 학습이 가장 일반적입니다.

두 기계 학습 모델을 한 번 더 실행해야 합니까? 높은 수준의 설명을 보려면 이 짧은 비디오를 확인하십시오.

지도 학습과 비지도 학습은 언제 사용해야 합니까?

지도 학습 또는 비지도 학습을 사용해야 하는지 여부는 목표와 사용할 수 있는 데이터의 구조 및 양에 따라 다릅니다. 결정을 내리기 전에 데이터 과학자가 다음을 평가하도록 하십시오.

  • 입력 데이터가 레이블이 지정되지 않았거나 레이블이 지정된 데이터 세트입니까? 레이블이 지정되지 않은 경우 팀에서 추가 레이블 지정을 지원할 수 있습니까?
  • 달성하고자 하는 목표는 무엇입니까? 반복되는 잘 정의된 문제로 작업하고 있습니까? 아니면 알고리즘이 새로운 문제를 예측해야 합니까?
  • 데이터 볼륨과 구조를 지원하는 알고리즘이 있습니까? 필요한 것과 동일한 차원(기능 또는 속성의 수)을 가지고 있습니까?

지도 머신 러닝을 사용해야 하는 경우

Gartner에 따르면 지도 학습은 비즈니스 시나리오에서 가장 인기 있고 가장 자주 사용되는 기계 학습 유형입니다. 이는 빅 데이터를 분류하는 것이 지도 학습에서 실질적인 도전이 될 수 있지만 결과가 매우 정확하고 신뢰할 수 있기 때문일 수 있습니다(클라이언트가 전체 소스를 사용할 수 있음).

다음은 지도 학습 사용 사례의 몇 가지 예입니다. 일부는 산업에 따라 다르지만 나머지는 모든 조직에 적용할 수 있습니다.

  • 질병의 위험인자 파악 및 예방대책 수립
  • 이메일 스팸 여부 분류
  • 집값 예측
  • 고객 이탈 예측
  • 강우량 및 기상 조건 예측
  • 대출 신청자가 저위험인지 고위험인지 확인
  • 자동차 엔진의 기계 부품 고장 예측
  • 소셜 미디어 공유 점수 및 성능 점수 예측

Wood는 감독 학습을 사용하여 클라이언트의 수신 이메일에 대한 분류 시스템을 구축한 방법의 예를 공유했습니다. CRM 시스템의 도움으로 이메일은 일반적인 쿼리(예: 고객 주소 변경, 불만 사항)를 나타내는 그룹으로 분류되었습니다. 그런 다음 Wood는 이러한 범주를 사용하여 새 수신 이메일을 수신할 때 해당 이메일을 할당할 범주를 알 수 있도록 모델을 교육했습니다. 그는 말한다:

“이 경우 모델을 훈련하기 위한 '레이블' 세트를 제공하는 CRM 시스템이 있기 때문에 지도 학습이 가능했습니다. 이것들이 없었다면 감독되지 않은 학습만이 가능했을 것입니다.”

받은편지함을 정리하고 싶으신가요? CRM 소프트웨어를 시작하십시오.

비지도 머신 러닝을 사용해야 하는 경우

지도 학습과 달리 비지도 학습은 대용량 데이터를 실시간으로 처리할 수 있습니다. 그리고 이 모델은 데이터의 구조(분류)를 자동으로 식별하기 때문에 사람이 스스로 데이터 내에서 추세를 찾기 어려운 경우에 유용합니다.

예를 들어 마케팅 목적으로 잠재 소비자를 그룹으로 분류하려는 경우 비지도 클러스터링 방법이 좋은 출발점이 될 것입니다.

다음은 비지도 학습 사용 사례의 몇 가지 예입니다.

  • 구매 행동에 따른 고객 그룹화
  • 고객 데이터에서 상관 관계 찾기(예: 특정 스타일의 가방을 사는 사람들은 특정 스타일의 신발에도 관심이 있을 수 있음)
  • 구매 내역별 데이터 세분화
  • 다양한 관심사에 따라 사람들 분류하기
  • 제조 및 판매 메트릭별로 재고 그룹화

Wood는 한때 전 세계에 제조 시설을 갖춘 제약 회사에서 근무한 적이 있다고 설명했습니다. 회사 시설에서 발생한 오류를 기록하는 데 사용한 소프트웨어에는 선택할 수 있는 일반적인 오류 옵션이 있는 드롭다운 메뉴가 없었습니다.

이 때문에 공장 근로자는 오류를 일반 텍스트(영어 또는 현지 언어로)로 문서화했습니다. 회사는 일반적인 제조 문제의 원인을 알고 싶었지만 오류의 범주화 없이 데이터에 대한 통계 분석을 수행할 수 없었습니다.

Wood는 비지도 학습 알고리즘을 사용하여 오류의 공통점을 발견했습니다. 그는 가장 큰 주제를 식별하고 회사의 일반적인 제조 문제에 대한 파이 차트 분석과 같은 통계를 생성할 수 있었습니다. 우드 말한다:

"이를 통해 회사는 상당한 수작업이 필요했을 비즈니스 문제에 대한 개요를 한눈에 볼 수 있었습니다."

스마트한 미래를 위한 준비: 머신 러닝 수용

머신 러닝은 비즈니스 문제를 해결하고 데이터 기반 의사 결정을 내리는 데 도움이 되는 강력한 도구입니다. 이 기사가 조직에서 지도 또는 비지도 머신 러닝을 구현하는 방법에 대한 아이디어를 제공하기를 바랍니다.

기계 학습 기술을 수용할 준비가 되었다면 다음 단계는 현재 소프트웨어 스택의 기능을 평가하는 것입니다. 그런 다음 기계 학습을 사용하려는 응용 프로그램과 일치하는 업계의 다른 클라이언트 사용 사례에 대해 공급업체에 문의하십시오.

배울 것이 더 많은 것 같습니까? Capterra의 다음 관련 자료를 확인하십시오.

  • 머신 러닝이란 무엇입니까? 필수 비즈니스 인텔리전스 용어집
  • 머신 러닝 대 인공 지능에 대한 정통한 중소기업 가이드
  • 소규모 기업을 위한 인공 지능의 주요 응용 프로그램

또한 Capterra의 기계 학습 소프트웨어 디렉토리에서 실제 사용자의 리뷰를 읽고 가격대나 기능별로 도구를 필터링할 수 있습니다.