AWS를 사용하여 비즈니스에 기계 학습 솔루션을 추가하는 방법

게시 됨: 2020-05-13

기계 학습은 지속적으로 발전하고 있으며 많은 양의 데이터를 빠르고 자동으로 분석할 수 있기 때문에 세계 경제에서 큰 역할을 합니다.

기계 학습 기술을 프로그래머에게 더 가까이 다가가기 위해 Amazon은 현재 AWS 플랫폼에서 10개 이상의 기계 학습 및 인공 지능 서비스를 제공합니다. 이러한 서비스를 사용하면 간단한 방법으로 모델 구축을 시작할 수 있으므로 비즈니스를 다음 단계로 끌어올릴 수 있습니다.

이러한 서비스의 대부분은 완전 관리형입니다. 즉, 이러한 도구는 데이터 작업을 위해 사전 훈련된 모델을 활용하므로 이를 사용하기 위해 기계 학습 경험이 필요하지 않습니다. 비즈니스 문제에 따라 컴퓨터 비전, 자연어 처리, 권장 사항 및 예측과 같은 영역에서 사전 훈련된 ML 서비스 중에서 선택할 수 있습니다. 아래 그래프는 각 단계에서 사용할 수 있는 AWS 도구와 함께 기계 학습 솔루션 워크플로를 보여줍니다.

기계 학습 솔루션을 만드는 단계

AWS를 사용하여 비즈니스에 기계 학습을 적용하는 방법

첫째: 데이터 수집

ML 솔루션을 만드는 데 가장 중요한 요소는 데이터입니다. 데이터에는 정형, 반정형, 비정형의 3가지 유형이 있습니다.

  • 구조화된 데이터 의 요소는 주소 지정이 가능하며 관계형 데이터베이스에 저장할 수 있습니다. 이 유형의 데이터에는 미리 정의된 스키마가 있습니다. 구조화된 데이터의 예로는 숫자 및 문자열(텍스트) 데이터가 있는 관계형 데이터베이스가 있습니다.
  • 반구조적 데이터세트 는 관계형 데이터베이스에 상주하지 않지만 그럼에도 불구하고 분석을 더 쉽게 하는 사전 정의된 요소(스키마)가 있습니다. 반구조화된 데이터 파일 유형의 예로는 XML, HTML, RDF 또는 JSON이 있습니다.
  • 비정형 데이터 가 전부입니다. 이 데이터 유형에는 사전 정의된 구조가 없으며 일반적으로 파일 세트로 저장됩니다. 가장 널리 사용되는 비정형 데이터 예는 텍스트 문서, 사진, 비디오, 오디오 파일 및 애플리케이션 로그입니다.

데이터 로딩 – Kinesis란 무엇입니까?

AWS Kinesis 서비스는 웹 및 모바일 애플리케이션과 같은 다양한 소스에서 지속적으로 생성될 수 있는 데이터를 수집합니다. 기가바이트의 데이터를 매우 빠르게 캡처할 수 있는 실시간 데이터 스트리밍 서비스입니다. Kinesis 는 다음 도구를 제공합니다.

  • Kinesis Video Streaming – 디바이스에서 AWS로 비디오를 스트리밍하는 데 도움이 되는 도구
  • Kinesis Data Streaming – IT 로그, 웹사이트 클릭 또는 금융 거래와 같은 데이터를 수집하는 데 도움이 되는 도구
  • Kinesis Data Firehose – 스트리밍된 데이터를 데이터 저장소(예: S3, Redshift) 또는 분석 도구로 로드하는 도구
  • Kinesis Data Analytics – SQL 또는 Java를 사용하여 스트리밍된 데이터를 실시간으로 처리하는 도구

데이터 로딩 – Glue란?

데이터 로딩에 도움이 될 수 있는 또 다른 AWS 서비스는 Apache Spark에서 관리하는 Glue 입니다 . 분석에 사용하기 전에 데이터를 준비하는 데 사용할 수 있는 추출, 변환 및 로드 도구(ETL)입니다. Glue는 구조화된 데이터와 반구조화된 데이터 모두에서 작동할 수 있습니다.

Glue의 요소는 데이터 카탈로그, ETL 엔진 및 스케줄러입니다. Glue 데이터 카탈로그는 도구의 가장 중요한 부분입니다. 데이터 소스를 살펴보고 스키마를 감지하는 크롤러가 자동으로 발견한 주어진 데이터에 대한 메타데이터를 저장합니다.

ETL 엔진은 프로그래밍이 아닌 사용자를 위해 ETL 프로세스에서 사용할 Python 및 Scala 코드를 생성할 수 있습니다. 사용자가 제공한 코드로 데이터를 처리할 수도 있습니다. 스케줄러는 작업을 모니터링하고, 작업을 실행하고, 일부 이벤트(예: 매주 월요일 특정 시간 또는 다른 작업이 완료되거나 실패할 때)를 기반으로 트리거할 수 있습니다.

두 번째: 올바른 기계 학습 도구 선택

필요한 데이터를 수집한 후 ML 솔루션 구축을 시작할 수 있습니다. AWS는 다양한 유형의 데이터를 처리할 수 있는 몇 가지 기계 학습 도구를 제공합니다.

이제 이러한 도구 각각을 살펴보고 비즈니스에서 사용할 수 있는 주요 영역을 제시하겠습니다 .

SageMaker는 무엇입니까?

SageMaker 는 기계 학습 개발자와 데이터 과학자에게 가장 유용합니다. 이 서비스는 최소한의 노력으로 개념에서 생산까지 기계 학습 모델을 가져오는 데 도움이 되는 완벽한 솔루션입니다. Amazon SageMaker에는 데이터 레이블 지정, 모델 구축, 최적화, 교육, 테스트 및 배포에 도움이 되는 다양한 도구(Ground Truth, Notebooks, Experiments, Debugger, Model Monitor, Neo)가 있습니다.

주어진 문제에 대해 수동으로 올바른 알고리즘을 찾으려면 종종 몇 시간의 교육과 테스트가 필요합니다. SageMaker에는 50가지 사전 훈련된 ML 모델을 사용하여 현재 상황에 가장 적합한 ML 모델을 자동으로 찾는 AutoPilot 옵션이 있습니다. 개발자는 이 솔루션을 사용하여 기준 모델을 빠르게 찾을 수 있습니다.

개인화란 무엇입니까?

Personalize 는 추천 시스템을 구축하는 데 도움이 되는 기계 학습 서비스입니다. Personalize는 애플리케이션의 활동 스트림(예: 클릭, 페이지 보기, 구매)을 처리하고 이를 사용하여 개인화된 권장 사항을 생성할 수 있습니다. 연령 또는 지리적 위치와 같은 사용자에 대한 추가 정보를 사용할 수도 있습니다. 짧은 API 호출로 애플리케이션에 권장 사항 결과를 표시하는 작업을 단순화할 수 있습니다. Personalize의 기계 학습 기술은 Amazon.com에서 수년간 사용하여 개선되었습니다.

이해란 무엇입니까?

Comprehend 는 기계 학습을 사용하여 구조화되지 않은 텍스트 데이터에서 귀중한 통찰력을 추출하는 자연어 처리(NLP) 서비스입니다. 이 서비스는 감정 분석, 품사 추출 및 토큰화를 적용하여 텍스트의 주요 특징을 감지합니다. Comprehend는 주어진 텍스트가 얼마나 긍정적이거나 부정적인지 이해하는 데 도움이 될 수 있습니다.

Comprehend에는 특히 의료 산업을 위한 Amazon Comprehend Medical이라는 추가 도구가 있습니다. Amazon Comprehend Medical은 의료 문서(예: 환자의 의료 기록, 임상 기록)를 분석하고 약물, 복용량 및 빈도에 대한 정보를 추출할 수 있습니다. Comprehend는 완전 관리형 서비스입니다.

예측이란 무엇입니까?

Forecast 는 기계 학습을 사용하여 시계열 예측 모델을 구축합니다. 과거 시계열 데이터를 추가 변수(예측에 영향을 줄 수 있다고 생각함)와 결합하여 예측 모델을 구축할 수 있습니다. 이 Amazon 솔루션은 주가 또는 고객 제품 수요와 같은 값을 예측하는 데 적용됩니다. Forecast는 또한 완전 관리형 서비스이며 비즈니스 요구 사항에 맞게 확장할 수 있습니다.

렉스란?

Lex 는 ASR(자동 음성 인식)을 사용하여 음성을 텍스트로 변환하고 NLU(자연어 이해)를 사용하여 텍스트의 의도를 인식합니다. 이 솔루션을 통해 사용자는 대화형 봇을 구축할 수 있습니다.

예를 들어, 고객 질문에 자동으로 응답하는 수동 고객 지원 대신 Lex를 사용할 수 있습니다. Amazon Lex는 Amazon Alexa(Amazon의 가상 비서 AI)와 동일한 딥 러닝 기술을 사용합니다.

폴리란?

Polly 는 딥 러닝 알고리즘을 사용하여 텍스트를 생생한 음성으로 변환하는 클라우드 서비스입니다. 현재 일본어, 중국어, 한국어, 아랍어를 포함한 29개 언어로 60명의 남녀 음성을 지원합니다. Polly는 또한 시간, 날짜, 단위, 분수 및 약어를 처리할 수 있습니다. 이 솔루션을 통해 사용자는 대화할 수 있는 애플리케이션을 만들 수 있습니다.

사기 감지기란 무엇입니까?

Fraud Detector 는 결제 사기 또는 가짜 계정과 같은 사기 온라인 활동을 식별하는 데 도움이 되는 AWS 서비스입니다. 이 서비스는 완전 관리형이므로 몇 번의 클릭만으로 사기 탐지 모델을 생성할 수 있습니다.

Textract는 무엇입니까?

Textract 는 스캔한 문서에서 데이터를 자동으로 읽을 수 있는 서비스입니다. Textract는 몇 시간 만에 수백만 페이지를 처리할 수 있으며 문서 워크플로를 자동화하는 데 도움이 될 수 있습니다. 이 서비스는 대출 신청서 또는 의료 문서와 같은 문서를 처리하는 데 유용합니다.

번역이란 무엇입니까?

번역 은 언어 간 텍스트 번역을 수행하기 위해 서비스 가능한 AWS 기계 학습입니다. 딥 러닝 모델을 사용하여 기존 통계 알고리즘에 비해 더 정확하고 자연스러운 번역을 제공합니다. 번역은 54개 언어(예: 아프리칸스어, 불가리아어, 에스토니아어 포함)와 2,804개 언어 쌍을 지원합니다.

인식이란 무엇입니까?

Rekognition 은 이미지와 영화에서 사물, 사람, 텍스트를 인식할 수 있는 컴퓨터 비전 서비스입니다. Rekognition은 얼굴을 식별 및 비교하고 분석하고 입, 코 또는 눈과 같은 일부 얼굴 특징을 식별할 수 있습니다.

Rekognition에는 얼굴 이미지에서 행복, 슬픔 또는 놀라움과 같은 감정을 자동으로 감지하는 모듈이 있습니다. 또한 실시간 이미지와 저장된 참조 이미지를 비교하여 사용자의 신원을 확인하는 사용자 얼굴 인증을 수행할 수 있습니다.

세 번째: 기계 학습 솔루션 배포

모델을 배포하는 데 가장 널리 사용되는 방법은 SageMaker Service이며 다음 두 가지 방법 중 하나로 사용할 수 있습니다.

  • SageMaker 호스팅 서비스 를 사용하여 HTTPS 끝점 설정. 이 솔루션에서 클라이언트 애플리케이션은 배포된 모델에서 예측을 가져오기 위해 HTTPS 끝점에 요청을 보냅니다. 이 솔루션을 사용하려면 Docker 이미지와 함께 제공해야 합니다. 여러 모델을 배포해야 하는 경우 다중 모델 끝점을 사용할 수도 있습니다.
  • 전체 데이터 세트에 대한 예측을 얻는 데 도움이 되는 SageMaker 배치 변환 사용 . 배치 변환을 사용하여 모델을 배포하려면 모델, 데이터 세트 및 예측을 저장할 S3 버킷이 필요합니다.

배포 대안은 AWS IoT Greengrass 를 사용하는 것입니다. 이 서비스는 AWS를 사물 인터넷(IoT) 장치로 확장합니다. 이 서비스를 사용하여 장치는 데이터를 수집, 필터링, 처리할 수 있으며 클라우드 연결 없이도 Lambda 함수, Docker 컨테이너를 실행하고 ML 모델을 기반으로 예측을 실행할 수 있습니다. 인터넷에 연결되면 Greengrass는 모든 데이터를 클라우드 서비스와 동기화합니다.

요약

보시다시피 Amazon Web Service는 비즈니스에 효과적인 기계 학습 솔루션을 만드는 데 도움이 되는 다양한 도구를 제공합니다. ML AWS 도구를 사용하면 얼굴 감지, 챗봇, 음성 인식, 소셜 미디어 콘텐츠의 감정 분석과 같은 새로운 기능을 애플리케이션에 추가할 수 있습니다. AWS는 몇 개월마다 새로운 사용 사례를 기반으로 새로운 ML 서비스를 추가하여 AI 솔루션 생성을 위한 가장 빠르게 성장하는 플랫폼 중 하나가 되었습니다.

Miquido와 함께 미래 지향적인 머신 러닝 솔루션을 개발하십시오!