데이터 스크래핑이란 무엇이며 어떻게 사용할 수 있습니까?
게시 됨: 2017-09-13데이터 스크래핑이란 무엇입니까?
웹 스크래핑이라고도 하는 데이터 스크래핑은 웹사이트의 정보를 컴퓨터에 저장된 스프레드시트나 로컬 파일로 가져오는 프로세스입니다. 웹에서 데이터를 가져오는 가장 효율적인 방법 중 하나이며 경우에 따라 해당 데이터를 다른 웹사이트로 보내는 방법입니다. 데이터 스크래핑의 인기 있는 용도는 다음과 같습니다.
- 웹 콘텐츠/비즈니스 인텔리전스 연구
- 여행 예약 사이트/가격 비교 사이트 가격
- 공개 데이터 소스(예: Yell 및 Twitter)를 크롤링하여 판매 리드 찾기/시장 조사 수행
- 전자상거래 사이트에서 다른 온라인 공급업체(예: Google 쇼핑)로 제품 데이터 보내기
그리고 그 목록은 단지 표면을 긁고 있을 뿐입니다. 데이터 스크래핑에는 수많은 응용 프로그램이 있습니다. 데이터를 한 위치에서 다른 위치로 이동해야 하는 거의 모든 경우에 유용합니다.
데이터 스크래핑의 기본은 비교적 마스터하기 쉽습니다. Excel을 사용하여 간단한 데이터 스크래핑 작업을 설정하는 방법을 살펴보겠습니다.
Microsoft Excel에서 동적 웹 쿼리를 사용한 데이터 스크래핑
Microsoft Excel에서 동적 웹 쿼리를 설정하는 것은 외부 웹 사이트(또는 여러 웹 사이트)의 데이터 피드를 스프레드시트로 설정할 수 있는 쉽고 다양한 데이터 스크래핑 방법입니다.
이 훌륭한 튜토리얼 비디오를 시청하여 웹에서 Excel로 데이터를 가져오는 방법을 배우거나 원하는 경우 아래에 작성된 지침을 사용하십시오.
- Excel에서 새 통합 문서 열기
- 데이터를 가져올 셀을 클릭합니다.
- '데이터' 탭을 클릭합니다.
- '외부 데이터 가져오기'를 클릭합니다.
- '웹에서' 기호를 클릭합니다.
- 웹 페이지의 왼쪽 상단과 특정 콘텐츠 옆에 나타나는 작은 노란색 화살표를 확인하세요.
- 데이터를 가져올 웹 페이지의 URL을 주소 표시줄에 붙여넣습니다(데이터가 표로 표시되는 사이트를 선택하는 것이 좋습니다).
- '이동' 클릭
- 가져올 데이터 옆에 있는 노란색 화살표를 클릭합니다.
- '가져오기' 클릭
- '데이터 가져오기' 대화 상자가 나타납니다.
- '확인'을 클릭하십시오(또는 원하는 경우 셀 선택을 변경하십시오).
이 단계를 따랐다면 이제 스프레드시트에 설정된 웹사이트의 데이터를 볼 수 있을 것입니다.
동적 웹 쿼리의 장점은 데이터를 일회성 작업으로 스프레드시트로 가져오는 것이 아니라 공급한다는 것입니다. 소스 웹사이트. 이것이 우리가 그것들을 다이나믹이라고 부르는 이유입니다.
동적 웹 쿼리가 가져오는 데이터를 얼마나 정기적으로 업데이트하는지 구성하려면 '데이터', '속성'으로 이동한 다음 빈도를 선택합니다("X분마다 새로 고침").
도구를 사용한 자동화된 데이터 스크래핑
Excel에서 동적 웹 쿼리를 사용하는 방법을 익히는 것은 데이터 스크래핑을 이해하는 데 유용한 방법입니다. 그러나 작업에서 데이터 스크래핑을 정기적으로 사용하려는 경우 전용 데이터 스크래핑 도구가 더 효과적일 수 있습니다.
다음은 시장에서 가장 인기 있는 몇 가지 데이터 스크래핑 도구에 대한 우리의 생각입니다.
데이터 스크레이퍼(Chrome 플러그인)
Data Scraper는 Chrome 브라우저 확장 프로그램에 바로 삽입되므로 브라우저에 로드된 웹 페이지에서 데이터를 추출하기 위해 미리 만들어진 다양한 데이터 스크래핑 "레시피" 중에서 선택할 수 있습니다.
이 도구는 Twitter 및 Wikipedia와 같은 인기 있는 데이터 스크래핑 소스와 특히 잘 작동합니다. 플러그인에는 이러한 사이트에 대한 더 다양한 레시피 옵션이 포함되어 있기 때문입니다.
우리는 도구의 공개 레시피 중 하나를 사용하여 PR 기회에 대한 Twitter 해시태그 "#jourorequest"를 마이닝하여 Data Scraper를 사용해 보았습니다. 우리가 얻은 데이터의 특징은 다음과 같습니다.
보시다시피 이 도구는 최근 해시태그에 게시한 모든 계정의 사용자 이름과 함께 해당 트윗 및 URL이 포함된 테이블을 제공했습니다.
이 데이터를 이 형식으로 두는 것은 여러 가지 이유로 Twitter의 브라우저 보기에서 단순히 데이터를 보는 것보다 PR 담당자에게 더 유용할 것입니다.
- 언론 연락처 데이터베이스를 만드는 데 사용할 수 있습니다.
- 이 목록을 계속 참조하여 원하는 것을 쉽게 찾을 수 있는 반면 Twitter는 지속적으로 업데이트합니다.
- 목록은 정렬 및 편집 가능
- 언제든지 오프라인으로 전환하거나 변경할 수 있는 데이터에 대한 소유권을 제공합니다.
우리는 Data Scraper의 공개 레시피가 때때로 약간 거칠지만 Data Scraper에 깊은 인상을 받았습니다. Chrome에 무료 버전을 설치하고 데이터 추출과 함께 놀아보세요. 도구의 작동 방식과 원하는 데이터를 추출하는 몇 가지 간단한 방법에 대한 아이디어를 얻으려면 제공하는 소개 동영상을 시청하십시오.
Web하비
WebHarvy는 무료 평가판 버전이 있는 포인트 앤 클릭 데이터 스크레이퍼입니다. 가장 큰 장점은 유연성입니다. 도구에 내장된 웹 브라우저를 사용하여 가져오려는 데이터를 탐색한 다음, 고유한 마이닝 사양을 만들어 소스 웹사이트에서 필요한 것을 정확히 추출할 수 있습니다.
import.io
Import.io는 많은 노력을 기울이는 기능이 풍부한 데이터 마이닝 도구 모음입니다. "변경된 사항은 무엇입니까?"를 비롯한 몇 가지 흥미로운 기능이 있습니다. 특정 웹사이트에 대한 업데이트를 알려줄 수 있는 보고서 - 심층 경쟁자 분석에 이상적입니다.
마케터는 데이터 스크래핑을 어떻게 사용하고 있습니까?
이 시점에서 수집한 것처럼 데이터 스크래핑은 정보가 사용되는 거의 모든 곳에서 유용할 수 있습니다. 다음은 마케터가 기술을 사용하는 방법에 대한 몇 가지 주요 예입니다.
이질적인 데이터 수집
FeedOptimise의 CEO인 Marcin Rosinski는 데이터 스크래핑의 가장 큰 장점 중 하나는 다양한 데이터를 한 곳으로 수집하는 데 도움이 될 수 있다고 말합니다. "크롤링을 사용하면 여러 소스에서 구조화되지 않고 흩어져 있는 데이터를 가져와 한 곳에서 수집하여 구조화할 수 있습니다."라고 Marcin은 말합니다. “여러 웹사이트가 서로 다른 기관에서 관리하는 경우 모두 하나의 피드로 결합할 수 있습니다.
"사용 사례의 스펙트럼은 무한합니다."
FeedOptimise는 웹사이트에서 찾을 수 있는 다양한 데이터 스크래핑 및 데이터 피드 서비스를 제공합니다.
신속한 연구
데이터 스크래핑의 가장 간단한 용도는 단일 소스에서 데이터를 검색하는 것입니다. 유용할 수 있는 많은 데이터가 포함된 웹 페이지가 있는 경우 해당 정보를 컴퓨터에 질서 있는 형식으로 가져오는 가장 쉬운 방법은 아마도 데이터 스크래핑일 것입니다.
Twitter에서 유용한 연락처 목록을 찾고 데이터 스크래핑을 사용하여 데이터를 가져옵니다. 이를 통해 프로세스가 일상 업무에 어떻게 적용될 수 있는지 맛보실 수 있습니다.
XML 피드를 타사 사이트로 출력
사이트의 제품 데이터를 Google 쇼핑 및 기타 타사 판매자에게 제공하는 것은 전자상거래를 위한 데이터 스크래핑의 핵심 애플리케이션입니다. 이를 통해 제품 세부 정보 업데이트의 잠재적으로 힘든 프로세스를 자동화할 수 있습니다. 이는 재고가 자주 변경되는 경우 매우 중요합니다.
Target Internet의 마케팅 이사인 Ciaran Rogers는 "데이터 스크래핑을 통해 Google 쇼핑용 XML 피드를 출력할 수 있습니다. “ 저는 제품이 입고될 때마다 사이트에 새로운 SKU를 지속적으로 추가하는 많은 온라인 소매업체와 협력했습니다. 전자 상거래 솔루션이 적절한 XML 피드를 출력하지 않는 경우 문제가 될 수 있는 최고의 제품을 광고할 수 있도록 Google 판매자 센터에 연결할 수 있습니다. 최신 제품이 잠재적으로 베스트 셀러인 경우가 많으므로 출시되는 즉시 광고를 받고 싶습니다. 데이터 스크래핑을 사용하여 Google 판매자 센터에 제공할 최신 목록을 생성했습니다. 그것은 훌륭한 솔루션이며, 실제로 데이터가 있으면 데이터로 할 수 있는 일이 무궁무진합니다. 피드를 사용하면 전환율이 가장 높은 제품에 매일 태그를 지정하여 해당 정보를 Google Adwords와 공유하고 해당 제품에 대해 더 경쟁력 있는 입찰가를 보장할 수 있습니다. 일단 설정하면 모든 것이 완전히 자동화됩니다. 이러한 방식으로 제어할 수 있는 우수한 피드는 유연성이 뛰어나고 고객이 좋아하는 캠페인에서 매우 확실한 개선으로 이어질 수 있습니다."
Google 판매자 센터에 대한 간단한 데이터 피드를 직접 설정할 수 있습니다. 완료 방법은 다음과 같습니다.
Google 판매자 센터에 대한 데이터 피드를 설정하는 방법
앞에서 설명한 기술이나 도구 중 하나를 사용하여 동적 웹 사이트 쿼리를 사용하여 사이트에 나열된 제품의 세부 정보를 가져오는 파일을 만듭니다. 이 파일은 정기적으로 자동 업데이트되어야 합니다.
세부 사항은 여기에 지정된 대로 설정해야 합니다.
- 이 파일을 비밀번호로 보호된 URL에 업로드
- Google Merchant Center로 이동하여 로그인합니다(먼저 Merchant Center 계정이 올바르게 설정되었는지 확인).
- 제품으로 이동
- 더하기 버튼을 클릭하십시오
- 대상 국가를 입력하고 피드 이름을 만드세요.
- '예약된 가져오기' 옵션을 선택합니다.
- 액세스하는 데 필요한 사용자 이름 및 비밀번호와 함께 제품 데이터 파일의 URL을 추가하십시오.
- 제품 업로드 일정과 가장 일치하는 가져오기 빈도를 선택하세요.
- 저장 클릭
- 이제 Google 판매자 센터에서 제품 데이터를 사용할 수 있습니다. '진단' 탭을 클릭하여 상태를 확인하고 모든 것이 원활하게 작동하는지 확인하십시오.
데이터 스크래핑의 어두운 면
데이터 스크래핑에는 많은 긍정적인 용도가 있지만 소수에 의해 남용되기도 합니다.
데이터 스크래핑의 가장 흔한 오용은 이메일 수집입니다. 웹사이트, 소셜 미디어 및 디렉토리에서 데이터를 스크래핑하여 사람들의 이메일 주소를 찾아낸 다음 이를 스패머 또는 사기꾼에게 판매합니다. 일부 관할 지역에서는 데이터 스크래핑과 같은 자동화된 수단을 사용하여 상업적 목적으로 이메일 주소를 수집하는 것은 불법이며 거의 보편적으로 나쁜 마케팅 관행으로 간주됩니다.
많은 웹 사용자는 다음을 포함하여 이메일 수집자가 이메일 주소를 도용하는 위험을 줄이는 데 도움이 되는 기술을 채택했습니다.
- 주소 수정: 공개적으로 게시할 때 이메일 주소의 형식을 변경합니다(예: '[email protected]' 대신 'patrick[at]gmail.com' 입력). 이것은 소셜 미디어에서 이메일 주소를 보호하기 위한 쉽지만 약간 신뢰할 수 없는 접근 방식입니다. 일부 수집기는 일반 형식의 이메일뿐만 아니라 다양한 뭉개진 조합을 검색하므로 완전히 밀폐되지 않습니다.
- 문의 양식: 웹사이트에 이메일 주소를 게시하는 대신 문의 양식을 사용합니다.
- 이미지: 이메일 주소가 웹사이트에 이미지 형식으로 표시되는 경우 이메일 수집과 관련된 대부분의 사람들이 기술적으로 도달할 수 있는 범위를 벗어납니다.
데이터 스크래핑의 미래
작업에 데이터 스크래핑을 사용할 것인지 여부에 관계없이 향후 몇 년 동안 더 중요해질 것이므로 해당 주제에 대해 스스로 교육하는 것이 좋습니다.
이제 머신 러닝을 사용하여 이미지와 같이 전통적으로 인간만이 해석할 수 있었던 입력을 계속해서 더 잘 인식할 수 있는 데이터 스크래핑 AI가 시장에 나와 있습니다.
이미지 및 비디오에서 데이터 스크래핑이 크게 향상되면 디지털 마케터에게 광범위한 결과를 가져올 것입니다. 이미지 스크래핑이 더욱 심화됨에 따라 우리는 온라인 이미지를 직접 보기 전에 훨씬 더 많이 알 수 있게 될 것입니다. 이는 텍스트 기반 데이터 스크래핑과 마찬가지로 훨씬 더 나은 작업을 수행하는 데 도움이 될 것입니다.
그리고 가장 큰 데이터 스크레이퍼인 Google이 있습니다. Google이 한 페이지의 사본에서 가능한 한 많은 이미지를 정확하게 추론할 수 있을 때 웹 검색의 전체 경험이 변환될 것이며, 이는 디지털 마케팅 관점에서 두 배로 향상됩니다.
가까운 장래에 이런 일이 일어날 수 있을지 확신이 서지 않는다면 Google의 이미지 해석 API인 Cloud Vision을 사용해 보고 의견을 알려주세요. 지금 무료 멤버십을 받으세요 - 신용 카드가 전혀 필요하지 않습니다
무료 회원