머신 러닝이란 무엇입니까? 필수 비즈니스 인텔리전스 용어집

게시 됨: 2022-05-07

나는 항상 봄철 대청소를 너무 적게, 너무 늦게 보았다. 저에게 1월은 주문하고, 우선 순위를 지정하고, 내년도의 질문에 답하기 시작하는 때입니다. 이것이 내가 1월을 선택한 이유입니다. 기계 학습이란 무엇입니까?

그에 대한 답변을 하고 2017년을 최신 정보로 유지하기 위해 알아야 할 몇 가지 다른 용어도 정의하겠습니다. 비즈니스 인텔리전스 소프트웨어 가 여러분을 위해 할 수 있는 일에 관심이 있다면 먼저 이러한 기본 용어를 알아야 합니다. .

2017년 Gartner의 10대 전략 기술 트렌드 중 하나이기 때문에 머신 러닝을 우선 순위 에 두었지만 나머지 항목은 알파벳순으로 정렬되었습니다.

머신 러닝

기계 학습 이전에 컴퓨터는 생각하는 방법을 알려야 했습니다(프로그래밍됨). 기계 학습을 통해 컴퓨터는 스스로 생각할 수 있습니다.

나는 최근에 BI 소프트웨어 회사인 AnswerRocket 의 기계 학습 책임자인 Michael Finley와 이야기를 나눴 습니다. 기계 학습 이전에는 대부분의 소프트웨어가 "프로그래밍된 방식으로 실행되었습니다. 사람들은 명령을 컴퓨터 코드로 바꾸고 컴퓨터는 그 코드가 지시한 대로 수행했습니다." 아주 간단한 예는 계산기입니다. 계산기에 숫자를 입력하고 무엇을 해야 하는지(더하기, 빼기)를 지시하면 계산기가 결과를 알려줍니다. 그러나 기계 학습을 통해 소프트웨어는 적응할 수 있습니다. Finley는 계속해서 다음과 같이 덧붙입니다. "머신 러닝이 포함된 소프트웨어는 설치한 날과 실행한 지 10일 또는 100일째 되는 날과 동일한 작업을 수행하지 않습니다." 컴퓨터에 입력되는 값이 변경되면 소프트웨어가 해당 값에 적응합니다. 머신 러닝이 있는 컴퓨터는 이를 통합하는 방법을 배웁니다.

멋진 Andre Pinto와 Anthill Comics 제공

Finley는 머신 러닝을 "마지막으로 들은 것과 같은 노래를 듣고 싶습니다"와 같이 "좋아요"의 개념을 처리하는 방법을 알고 있는 소프트웨어라고 정의합니다. 이 개념은 사람에게는 쉽지만 컴퓨터에게는 어렵습니다. Finley는 컴퓨터가 어떤 숫자가 더 크거나 작은지 이해하고 숫자와 이름을 일치시키는 데 능숙하지만 유사성에 대한 아이디어에는 어려움을 겪는다고 설명했습니다. 머신 러닝은 컴퓨터가 한 가지가 다른 것과 "같은" 이유를 이해하는 데 도움이 됩니다. 머신 러닝의 유사성 파악은 특히 고객의 욕구를 예측하는 데 도움이 됩니다.

기계 학습은 Pandora에서 듣는 다음 노래나 Netflix에서 제안하는 영화 뒤에 있습니다. Pandora와 Netflix의 기계 학습 알고리즘은 사용자의 선택(Pandora의 경우 실제 "좋아요")에 "피드"되고 이를 사용하여 유사한 노래나 프로그램을 즐길 수 있는지 예측합니다.

이러한 기계 학습 알고리즘에 다른 데이터를 제공하면 다르게 반응합니다. 일반적인 공포 영화 식단에 갑자기 그리고 설명할 수 없는 로맨틱 코미디가 포함된 경우 Netflix의 ML 알고리즘은 해당 데이터에 반응하여 다른 로맨틱 코미디 또는 공포 로맨스를 제안하기 시작합니다.

영화에 대한 취향은 제쳐두고 머신 러닝이 SMB에 중요한 이유는 무엇입니까? 더 큰 경쟁자와 경쟁하는 데 도움이 될 수 있습니다. 기계 학습이 포함된 BI 소프트웨어는 새로 고칠 때마다 새로운 숫자를 사용합니다. 연간 보고서의 수치를 기반으로 전략을 세우는 것이 아니라 거의 실시간 정보와 변화하는 데이터에 적응하는 방법을 알고 있는 알고리즘을 기반으로 합니다. Finley는 비즈니스가 수행하는 모든 것을 확장하는 기존의 균질한 방식이 ML로 혁신할 수 있다고 설명합니다.

“모범 사례를 제시하고 프로세스를 반복하고 싶을 수도 있습니다. 그러나 매일 모범 사례를 제시할 수 있고 매일 이를 변경하고 전략을 재구성할 수 있는 정보가 있다면 어떨까요? 매일 전략을 다시 작성할 수 있는 ML 덕분에 데이터를 얻었고 이것이 SMB가 실제로 대기업의 점심을 먹고 있는 방법입니다.”

애자일 비즈니스 전략에 관심이 있는 SMB에게 머신 러닝은 생존을 위한 수단 이상일 수 있습니다. 그것은 기존 플레이어의 시장 점유율의 일부를 시작하는 방법이 될 수 있습니다.

  • 임시 분석
  • 임시 쿼리
  • 고급 분석
  • 인공 지능
  • 빅 데이터
  • 컨텍스트 데이터
  • 데이터 포인트
  • 데이터 품질
  • 데이터 시각화
  • 데이터웨어 하우스
  • 데이터 베이스
  • 대시보드
  • 드릴다운
  • ETL
  • 메타데이터
  • 측정항목
  • 현대 BI
  • 기존 BI
  • SaaS/클라우드 소프트웨어
  • 슬라이스-앤-다이스
  • SQL
  • 알고 싶은 용어…

임시 분석

Ad Hoc Analytics는 IT 비전문가, 비전문가도 이해할 수 있는 수준에서 필요할 때 분석하는 것입니다.

액세스 가능한 비즈니스 인텔리전스가 원하는 것이 분명한 것처럼 보이지만 항상 달성 가능한 것은 아닙니다. 오랫동안 BI 전문가는 비즈니스 인텔리전스 프로그램을 쿼리하기 위해 "컴퓨터로 말"(즉, 코딩 언어로 작성)할 수 있어야 했습니다. SQL, R 또는 Python으로 코딩하는 방법을 모르셨습니까? IT 담당자에게 물어보십시오. 그럼 기다려. 그런 다음 비즈니스 인텔리전스 프로그램이 작동할 때까지 기다린 다음 분석을 위해 조금 더 기다립니다.

고맙게도 BI는 마침내 임시 분석으로 성숙했습니다. : 이 시스템을 사용하면 필요한 데이터를 얻기 위해 IT 부서나 기존 보고서 생성 속도가 느려질 때까지 기다릴 필요가 없습니다. 그것은 당신의 일과 그들의 일을 더 쉽고 덜 스트레스로 만듭니다.

IT 직원이 없는 경우 임시 분석이 해당 문제를 해결합니다. Ad Hoc 분석은 또한 더 빠른 통찰력을 생성합니다(이것은 또 다른 유행어입니다. 필요한 정보를 얻는 데 더 짧은 시간이 걸린다는 의미입니다).

임시 쿼리

"쿼리"는 비즈니스 인텔리전스 소프트웨어에 답변을 요청할 수 있는 질문입니다. 예를 들어, BI 소프트웨어에 1970년 이후 태어난 갈색 눈을 가진 모든 고객의 알파벳순 목록을 요청할 수 있습니다. 쿼리를 쉽게 질문이라고 부를 수 있지만 대화에서 얼마나 자주 "쿼리"라고 말할 수 있습니까?

임시 쿼리는 필요할 때 요청할 수 있는 쿼리입니다. 오래된 비즈니스 분석과 마찬가지로 오래된 쿼리에는 IT 담당자가 질문할 필요가 있었습니다. 또한 쿼리는 월별 또는 연간 기준으로 받는 정기 보고서의 일부로 발생하는 경향이 있었습니다. 이전 BI 소프트웨어를 사용하면 프로그래밍 언어로 해당 쿼리를 요청해야 했습니다. SQL은 비즈니스 인텔리전스의 오랜 표준 중 하나였습니다. 요즘 R과 Python이 인기가 있습니다.

BI를 포함한 컴퓨터 프로그램을 DOJ에서 HHS에 이르는 관료주의의 한 분야로 볼 수 있습니다. 그들은 기술적으로 일을 성취하기 위해 존재하지만 각각은 고유한 언어를 가지고 있으며 고유한 방식으로 작동합니다. 프로그래머는 언어를 구사하고 각 프로그램/부서를 탐색하는 방법을 알고 있는 관료와 같습니다.

고급 분석

이 용어는 실제로 비즈니스 인텔리전스를 넘어선 것입니다. "비즈니스 인텔리전스"는 전통적으로 무슨 일이 일어났는지 분석하는 것이었습니다. 고급 분석은 미래에 일어날 일을 예측하거나 일반적으로 비즈니스 인텔리전스와 관련이 없는 세부 정보 및 요인을 분석하는 것입니다. 고급 분석의 몇 가지 예로는 데이터 및 텍스트 마이닝 , 예측 분석 , 예측 , 위치 분석 , 감정 분석 및 기계 학습이 있습니다.

인공 지능

머신 러닝은 AI의 일부이지만 AI는 훨씬 더 큰 개념입니다. AI에는 " 기계가 보여주는 지능 "이라고 부를 수 있는 모든 것이 포함됩니다 . AI 의미에서 "지능"은 무언가를 완료하는 능력을 의미합니다. 따라서 "지능"에 대한 일반적인 이해는 단순히 많이 아는 것으로 AI에서 볼 수 있는 일종의 지능이 아닙니다.

AI가 수행할 수 있는 "무언가"는 이미 다양합니다. 예를 들어 Daisy Intelligence 는 AI를 사용하여 소매업체의 데이터를 조사한 다음 "판매를 5% 이상 증가"할 수 있다고 주장하는 권장 사항을 제시합니다. 나처럼 DMV에서 기다리는 것만큼 예약하는 것을 좋아한다면 참석자의 선호도에 따라 회의 일정을 잡을 수 있는 Amy 와 같은 가상 비서가 가장 친한 가상의 친구가 될 수 있습니다.

빅 데이터

빅 데이터는 매우 큰 데이터 세트입니다. 나는 일반적으로 " 지옥으로 가는 길은 부사로 포장되어 있다"는 스티븐 킹의 말에 동의하지만 , 그 "극히"는 정당합니다. 적은 양의 데이터는 예를 들어 짧은 책입니다. 첫 번째 해리 포터 책의 PDF는 약 1MB입니다.

빅 데이터는 페바이트의 데이터와 같습니다. 책의 예를 계속하자면 기록된 역사가 시작된 이후로 기록된 모든 것은 50페타바이트 입니다. Google과 같은 거대 기업은 페타바이트를 처리하는 종류입니다. Google의 광고 트래픽을 모니터링하는 Google의 Mesa 시스템 은 페타바이트 규모의 데이터를 추적합니다.

컨텍스트 데이터

컨텍스트 데이터는 사람, 장소 또는 이벤트(dataspeak에서 "엔티티"라고 함)에 대한 추가 데이터입니다. 상황별 데이터는 비즈니스가 잠재 고객에 대해 알고 있는 정보를 정리하고 고객이 원하는 것이 무엇인지 예측하는 데 도움이 됩니다.

비즈니스는 아니지만 영국의 맨체스터 대학교는 입학 과정에서 상황 데이터를 사용 하여 " 당신의 성취와 잠재력에 대한 완전하고 종합적인 관점을 구축 " 하기 위해 . 학생의 입학 양식과 함께 UM은 응시자의 우편번호, 시험을 치른 학교의 품질, " 3개월 이상 보살핌을 받았는지 또는 보살핌을 받았는지"와 같은 요소를 고려합니다.

비즈니스의 경우 컨텍스트 데이터가 판매에 도움이 될 수 있습니다. 매우 광범위한 예를 들어, 위치의 날씨를 기반으로 한 과거 고객에 대한 컨텍스트 데이터는 수익을 창출할 수 있습니다. 애리조나주 투스콘에 있는 고객은 미네소타주 인터내셔널 폴스에 있는 고객보다 10월에 아이스 캔디를 구매할 가능성이 더 큽니다 .

데이터 포인트

데이터 포인트는 단일 데이터 스크랩입니다. 데이터 포인트는 추적하는 데이터 중 자체 포함된 단위 또는 데이터입니다. 단일 데이터 포인트는 " 투자 규모 "에서 Google에서 구매한 광고에 대한 단일 클릭에 이르기까지 무엇이든 될 수 있습니다. Uber의 경우 위치는 중요한 데이터 포인트입니다. 매우 중요한 데이터 포인트이므로 차량 서비스가 완료된 후 실제로 추적합니다 .

핵심 성과 지표익숙하다면 데이터 포인트에 익숙할 것입니다. KPI는 수익 또는 프로젝트를 완료하는 데 걸리는 시간과 같은 특정 유형의 데이터 포인트를 측정합니다.

데이터 품질

데이터 품질은 데이터의 유용성을 측정하는 것입니다. 고품질 데이터는 깨끗하고 조직적이며 사용 가능합니다. 도서관의 데이터가 도서관의 책이라면, 양질의 데이터를 보유한 도서관은 사람들이 원하고 필요로 하는 책을 좋은 상태로 적절한 위치에 보관할 것입니다.

데이터 품질에는 6가지 차원이 있습니다.

  • 완전성
  • 독창성
  • 타당성
  • 적시
  • 일관성
  • 정확성

데이터 시각화

데이터 시각화는 데이터를 표시하는 모든 이미지, 시각적 개체 또는 그래픽입니다. 파이 차트와 막대 그래프가 가장 일반적인 종류입니다. 하지만 훨씬 더 넓은 범위의 시각화가 있습니다. 2016년 비즈니스 인텔리전스 및 분석 플랫폼에 대한 Gartner의 평가 기준 (페이월 보호됨, 가치 있음)은 고급 차트 유형을 BI 솔루션에서 찾아야 할 "선호하는" 항목으로 평가합니다. 이러한 고품질의 선호하는 차트 유형 중 일부는 다음과 같습니다.

  • 마리메코 차트
  • X/Y 차트
  • 네트워크 차트
  • 파레토 다이어그램
  • 단어 구름

데이터웨어 하우스

데이터 웨어하우스는 다양한 데이터베이스 및 트랜잭션 시스템의 데이터를 보관하고 구성하는 컴퓨터 시스템입니다. 데이터 웨어하우스를 필요로 하려면 엔터프라이즈 크기의 대규모 데이터가 필요하기 때문에 "엔터프라이즈"라는 용어가 앞에 있는 경우가 많습니다.

데이터 베이스

데이터베이스는 필요한 것을 쉽게 얻을 수 있도록 구성된 데이터입니다. IMDB 에 가본 적이 있습니까? 물론 있습니다. 그것은 데이터베이스입니다. 영화, 배우, 감독, 프로듀서, 모두 쉽게 검색할 수 있도록 구성되어 있습니다 .

대시보드

이 사진은 대시보드가 ​​어떻게 생겼는지 보여주기 쉽기 때문에 이 설명 전에 있습니다.

공식 정의: 대시보드는 추적 중인 데이터를 시각적으로 표현한 것입니다. BI 프로그램에는 반드시 대시보드가 ​​있어야 합니다. 대시보드가 ​​없으면 차를 사지 않을 것입니다. BI 소프트웨어도 마찬가지입니다.

BI 소프트웨어를 구입할 때 프로그램의 대시보드 에 Gartner가 권장하는 다음 두 가지 기본 기준이 있는지 확인하십시오 (페이월 보호, 가치 있음).

  • "타사 옵션, 코딩 또는 스크립팅 없이 테이블, 막대 차트, 꺾은선형 차트, 영역 차트 및 원형 차트를 포함한 최소한의 기본 차트 유형으로 대시보드를 디자인할 수 있는 기능."
  • 코드를 몰라도 대시보드를 디자인하고 데이터를 분석할 수 있는 능력, "보이는 대로 얻는 것(WYSIWYG) 디자인"입니다.

드릴다운

드릴다운은 연간 판매 수치와 같은 일반적인 정보를 가져와 월, 주 또는 일별로 드릴다운하는 기능을 나타냅니다. "드릴다운"은 정보와 통찰력을 구분하는 일반적인 것에서 세부적인 것으로 범위를 좁힐 수 있음을 의미합니다. 드릴다운은 오래된 "10의 거듭제곱" 영화의 비즈니스 인텔리전스 버전과 비슷합니다.

ETL

ETL(추출, 변환, 로드)은 데이터 수집과 해당 데이터를 데이터 웨어하우스에 배치하는 사이에 발생합니다.

"추출"의 필요성은 데이터가 데이터 웨어하우스에 도달하기 전에 데이터베이스 또는 ERP 소프트웨어 에서 수집된다는 사실에서 비롯됩니다 . 변환의 필요성은 이러한 여러 데이터 소스가 종종 서로 다른 형식이고 데이터 웨어하우스에 저장 및 검색할 적절한 형식으로 변환되어야 한다는 사실에서 비롯됩니다. 로드의 필요성은 자명합니다. 한 데이터 소스를 다른 데이터 소스와 검색하고 비교할 수 있으려면 먼저 데이터 웨어하우스에 넣어야 합니다.

메타데이터

메타데이터는 데이터에 대한 데이터입니다. 그것이, 메타, 그것은… 메타 데이터 입니다!

하지만 진지하게.

메타데이터는 데이터에 대한 정보입니다. 세 가지 범주가 있습니다.

  • 기술: 모델, 형식 및 측정값과 같은 데이터에 대한 기술 세부 정보입니다.
  • 비즈니스: 사용자 친화적인 용어로 데이터 설명(예: 일반 영어)
  • 프로세스: 어떤 데이터 조각으로 무엇을 언제 수행했는지 알려주는 데이터입니다.

측정항목

"미터법"은 측정 대상에 대한 멋진 단어입니다.

순이익을 추적하고 있습니까? 그것은 지표입니다. 회사에서 얼마나 많은 사람들이 BI 소프트웨어를 사용하고 있는지 계속 주시하고 계십니까? 그것도 지표입니다. 대화 속도를 주시하고 계십니까? 그것도 지표입니다. 메트릭의 비결은 회사에 가장 적합한 것을 선택하는 것입니다. 회사마다 요구 사항이 다르므로 측정항목을 선택할 때 요구 사항과 우선 순위 를 고려하는 것이 좋습니다 .

현대 BI

최신 비즈니스 인텔리전스라는 용어는 Gartner 에서 다음과 같이 정의합니다 .

최신 BI 플랫폼은 IT 기반 분석 콘텐츠 개발을 지원합니다. 이는 비기술적 사용자가 데이터 액세스, 수집 및 준비에서 대화형 분석 및 통찰력의 협업 공유에 이르기까지 전체 스펙트럼 분석 워크플로를 자율적으로 실행할 수 있도록 하는 독립형 아키텍처로 정의됩니다.

간단히 말해서 최신 BI는 비즈니스 사용자를 최우선으로 합니다. 최신 BI 프로그램을 사용하기 위해 IT 담당자에게 의존하거나 훨씬 덜 의존할 필요가 없습니다. 예를 들어, 기존의 오래된 BI 프로그램은 IT 담당자만 콘텐츠를 작성할 수 있도록 설정되었지만 최신 BI 프로그램을 사용하면 비즈니스 사용자가 스스로 콘텐츠를 쉽게 만들 수 있습니다.

기존 BI

기존의 비즈니스 인텔리전스 프로그램은 IT 인력에 크게 의존합니다. 일반적으로 사용자가 SQL(프로그래밍 언어, 아래 참조)을 알고 있어야 하며 해당 언어로 여러 쿼리를 수동으로 입력해야 하므로 답변을 얻는 데 훨씬 더 오래 걸립니다. 따라서 그들은 훨씬 덜 민첩하며 Gartner의 전문가와 같은 전문가는 구매자가 대신 현대 BI 프로그램에서 볼 수 있는 기능을 찾을 것을 제안합니다 .

SaaS/클라우드 소프트웨어

SaaS(Software as a Service)는 구매자가 소프트웨어를 구매하여 설치하는 것이 아니라 소프트웨어를 사용하기 위해 라이선스를 구매하는 모델입니다. 대부분의 SaaS 소프트웨어는 인터넷을 통해(즉, 클라우드에서) 수행되므로 구매 및 설치의 초기 비용이 절감됩니다. 또한 소프트웨어가 보관된 서버를 모니터링할 필요가 없습니다. SaaS 회사는 잠재적인 중단을 추적합니다.

슬라이스-앤-다이스

다른 관점에서 데이터를 보거나 특정 부분을 더 자세히 보기 위해 큰 데이터 세트를 슬라이싱 및 다이싱합니다. 예를 들어 슬라이스 및 주사위 기능을 사용하면 주별, 월별, 개별 날짜별로 데이터를 확인할 수 있습니다. 보고서를 기다리는 대신 슬라이스 및 주사위를 사용하면 주도적으로 필요할 때 특정 데이터를 확인할 수 있습니다.

SQL

"sequel"로 발음되는 SQL은 데이터베이스에서 정보를 가져오는 데 사용되는 일반적인 프로그래밍 언어입니다. 당신이 영어를 말한다면 데이터베이스는 SQL을 말하고 그렇게 표현된 질문에 답하는 방법만 알 것입니다. 물론 비즈니스 인텔리전스 소프트웨어에 검색 엔진과 동일한 방식으로 질문할 수 있는 자연어 쿼리(NLQ)가 있는 경우는 제외합니다.

알고 싶은 용어…

아니면 이 목록의 독자에게 도움이 될 것이라고 생각하십니까? 아래 의견에 알려주십시오. 이상적으로는 주석 섹션이 사람들이 정의를 요청하고 내가 정의를 제공할 수 있는 또 다른 장소가 될 수 있습니다.

이러한 용어가 귀하에게 어떻게 도움이 되는지 알고 싶다면 Capterra의 비즈니스 인텔리전스 소프트웨어 디렉토리에 있는 옵션 중 하나를 확인하고 공급업체에 문의하십시오.