OnCrawl이 데스크탑 크롤러 그 이상인 이유: 클라우드 기반 SEO 플랫폼에 대한 심층 분석

게시 됨: 2018-12-06

OnCrawl은 2015년 프랑스 1위 전자상거래 업체의 SEO 요구 사항을 기반으로 구축되었습니다. 즉, 단기간에 분석을 확장하고 URL이 5천만 개 이상인 웹사이트를 처리해야 했습니다. 새로운 선수에게 힘든 일이라고 할까요? 사실, R&D에만 1,500만 유로를 지출했고 이전에 다양한 데이터 프로젝트를 지원했던 인프라 덕분에 작업이 수월했습니다. 데스크톱 크롤러와 클라우드 기반 크롤러의 구분이 여전히 불분명하기 때문에 OnCrawl이 높은 확장 기능에서 타사 통합 및 분석 속도에 이르기까지 단순한 데스크톱 크롤러보다 훨씬 더 많은 것을 제공하는 이유를 설명하는 것이 유용할 수 있다고 생각했습니다.

무한대 이상으로 확장

데스크톱 크롤러는 실행 중인 컴퓨터의 리소스와 메모리로 인해 크롤링 용량이 제한됩니다. 크롤링당 수천 개의 URL만 크롤링하도록 제한될 가능성이 큽니다. 소규모 웹 사이트에서는 이것이 문제가 되지 않을 수 있지만 SaaS(Software as a Service) 크롤러에 비해 이러한 URL을 크롤링하는 데 더 많은 시간이 걸릴 수 있습니다. 클라우드 기반 크롤러는 여러 서버에 분산되어 있으므로 컴퓨터의 속도와 크기에 제한을 받지 않습니다.

즉, 처리할 수 없는 크롤링이 없습니다. 우리는 Fortune 500대 기업 중 일부를 포함하여 매우 큰 웹사이트뿐만 아니라 소규모 웹사이트에서도 작업해 왔습니다. 서론에서 말했듯이, 우리는 프랑스에서 가장 큰 전자 상거래 웹사이트인 Cdiscount가 5천만 개 이상의 URL과 SEO 요구 사항을 한 번의 크롤링으로 처리할 수 있는 맞춤형 솔루션을 구축하도록 요청한 후 SEO 크롤러를 개발했습니다. 또한 확장 기능을 통해 검색 업계를 선도하는 시상식인 European Search Awards에서 2년 연속 최고의 SEO 도구로 선정되었습니다. 현재 우리는 웹사이트당 하루 최대 2,500만 개의 URL 또는 매월 약 10억 개의 웹페이지와 1,500억 개의 링크를 수집합니다. 여기에서 당사의 기술과 GDPR 정책을 처리하는 방법에 대해 자세히 알아볼 수 있습니다.

맞춤형 속도, 광범위한 기능

우리의 응용 프로그램은 클라우드 기반이므로 컴퓨터의 리소스와 속도 기능에 대해 생각할 필요가 없습니다. 또한 시작할 수 있는 시간이나 크롤링 수에 대한 제한이 없음을 의미합니다. 구독에서 허용하는 만큼 크롤링을 시작하고 크롤링하는 동안 다른 작업을 수행할 수 있습니다. 클라우드 기반 솔루션을 사용하면 애플리케이션 창을 닫고 크롤링이 완료될 때까지 기다릴 수 있습니다. 자체적으로 작동하므로 감시가 필요하지 않습니다. OnCrawl을 사용하면 사이트를 일주일에 한 번 또는 매월 크롤링해야 하는지 여부에 관계없이 SEO 요구 사항에 따라 크롤링을 예약할 수 있습니다. 더 빠른 분석이 필요한 경우 분석 속도를 높일 수도 있습니다.
OnCrawl 앱은 모든 웹사이트를 크롤링하는 데 사용할 수 있으므로 봇은 대상 웹사이트에 있는 robots.txt 파일에 표현된 Crawl-Delay 지시문을 따릅니다(있는 경우).
그렇지 않으면 초당 1페이지의 속도로 크롤링 속도를 제한하므로 봇이 대상 웹사이트에 대해 너무 공격적이지 않습니다.
웹 사이트에 1보다 높은 Crawl-Delay 지시문이 있으면 Google 애플리케이션에서 크롤링이 요청된 속도보다 느릴 것이라는 경고를 표시합니다.
Crawl-Delay가 30보다 높으면 오류가 표시됩니다. 크롤링 지연이 높은 크롤링을 구성하는 것은 허용되지 않습니다.
이러한 상황에서 크롤링을 설정하는 유일한 방법은 가상 robots.txt 파일을 사용하는 것입니다.
이렇게 하려면 먼저 Google Analytics 계정으로 프로젝트를 확인해야 크롤링하려는 도메인에 대한 소유권이 있는지 확인할 수 있습니다.

크롤링을 제어할 수 있는 몇 가지 매개변수가 있습니다.

  • 크롤링 속도 향상
  • 크롤링 일시 중지, 중지, 다시 시작 또는 중단
  • 최대 트래픽 시간을 피하고 봇이 사이트에 올 때 서버의 스트레스를 완화하기 위해 크롤링을 예약하십시오.
  • 가져온 페이지, 지금까지 검색한 URL 수를 실시간으로 확인하고 크롤링 속도를 늦추는 문제가 있는지 확인하십시오.

크롤러 스크린샷_진행

crawler_fetch 진행 스크린샷

간편한 로그 파일 분석

OnCrawl은 단순한 SEO 크롤러 그 이상입니다. 지난 몇 년 동안 우리는 다른 SEO 솔루션이 발견하지 못한 문제를 해결하는 강력한 로그 파일 분석기를 출시했습니다.

완전한 로그 파일은 사이트의 수명을 완벽하게 반영합니다. 방문자 또는 봇, 표시된 페이지 또는 리소스 호출 여부에 관계없이 사이트의 모든 활동이 여기에 기록됩니다.

IP 주소, 상태 코드, 사용자 에이전트, 리퍼러 및 기타 기술 데이터와 같은 정보를 사용하여 각 로그 라인(서버 측 데이터)은 가장 자주 분석을 기반으로 하는 사이트 분석을 완료하는 데 도움이 될 수 있습니다(더 클라이언트 측 지향).

당사의 로그 파일 분석기는 IIS, Ngnix의 Apache와 같은 표준 형식에서 더 많은 사용자 지정 형식에 이르기까지 모든 유형의 로그 형식을 지원합니다. 우리가 할 수 없는 분석은 없습니다. 또한 사용자가 Splunk, ELK/Elastic Stack, Amazon S3, OVH(ES) 또는 Cloudflare와 같은 타사 솔루션에서 로그 데이터를 직접 검색할 수 있습니다.

즉, 경쟁업체와 마찬가지로 더 이상 타사 로그 파일 관리자를 추가로 사용하지 않아도 됩니다.

우리의 인터페이스를 사용하면 안전한 개인 FTP를 통해 로그 파일을 자동으로 쉽게 업로드할 수 있습니다. 로그 파일 분석을 완료하는 데 몇 단계만 거치면 됩니다.

무한 궤도

또한 실시간으로 처리되는 파일을 모니터링하고 업로드를 차단하는 오류가 있는지 확인할 수 있습니다.

crawler_log 관리자 도구

무제한 타사 통합

OnCrawl은 Google Search Console, Google Analytics, Adobe Analytics 또는 Majestic과 같이 SEO 없이는 살 수 없는 최고의 검색 마케팅 솔루션과 함께 내장 커넥터를 개발하기 위해 노력했습니다. 이러한 솔루션을 감사 프로세스에 통합하는 것은 중복되지 않습니다. 검색 엔진에서 웹사이트의 성능과 상태에 대한 보다 포괄적인 보기를 제공하고 봇과 방문자가 웹사이트에서 실제로 어떻게 행동하는지 명확하게 보여줍니다. 또한 나중에 Excel 스프레드시트에서 이러한 데이터를 수동으로 처리할 필요가 없으므로 시간과 노력을 절약할 수 있습니다.

백링크 보고서

우리는 선도적인 링크 인텔리전스 솔루션인 Majestic과 신뢰할 수 있는 관계를 구축했습니다. 당사의 교차 데이터 분석을 통해 크롤링 데이터 및 로그 데이터를 백링크 데이터와 결합하여 SEO 트래픽 및 크롤링 빈도에 대한 백링크의 영향을 이해할 수 있습니다. 가장 중요한 KPI를 기반으로 페이지의 사용자 정의 그룹에 대한 사이트 전체 분할을 설정했으면. 또한 페이지 클릭 깊이 수준과 관련된 백링크 수를 시각화하거나 백링크 수가 Google의 동작에 영향을 미치는지 여부를 조사할 수 있습니다.
백링크 데이터가 URL 및 봇 히트 수준에서 상호 연관되고 결합되는 우리가 제공하는 분석은 현재 시장에서 유일한 분석입니다.

무한 궤도

순위 보고서

또한 사이트를 찾고 색인을 생성하는 방법과 페이지 최적화가 트래픽 및 색인 생성에 미치는 영향을 이해하기 위해 Google Search Console에 대한 고유한 커넥터를 개발했습니다. 데스크탑이든 모바일이든, 브랜드 키워드나 비브랜드 키워드 또는 페이지 그룹과 관련하여 시간 경과에 따른 키워드 분포, 노출수, 클릭수 및 클릭률에 대한 표준적이면서도 철저한 통찰력을 제공합니다. 더 중요한 것은 경쟁업체가 달성하지 못한 고유한 분석도 제공한다는 것입니다.
OnCrawl은 로그 파일의 세분화 및 데이터를 사용하여 순위 데이터를 해석합니다. 따라서 깊이, 내부 인기도, 단어 수, 인링크, 로드 시간 및 제목 평가와 관련하여 순위가 매겨지는 페이지와 그렇지 않은 페이지의 일반적인 특성을 식별할 수 있습니다. 뿐만 아니라 설명 길이와 구조화된 데이터가 클릭률에 미치는 영향도 확인할 수 있습니다.
마지막으로 OnCrawl Rankings를 사용하면 크롤링, 로그 파일 및 Search Console 데이터를 대규모로 결합하여 순위가 지정된 페이지를 강조 표시하고 크롤링 예산이 귀하의 위치에 영향을 미치는지 파악할 수 있습니다. 데스크톱이든 클라우드 기반이든 다른 크롤링은 이러한 기능을 지원하지 않습니다.

분석 보고서

Google Analytics 또는 Adobe Analytics(예: Omniture)를 연결하여 페이지 및 기술 SEO가 검색 엔진의 유기적 트래픽 실적에 미치는 영향을 이해할 수 있습니다. 웹사이트의 각 섹션에 대한 SEO 트래픽 성능 및 사용자 행동을 모니터링하는 데 도움이 됩니다.

CSV 수집

우리는 제3자 솔루션의 새로운 통합에 대해 지속적으로 노력하고 있지만 기술 SEO 감사를 실행하는 데 필요할 수 있는 특정 유형의 데이터 없이는 귀하를 떠나고 싶지 않았습니다. 그렇기 때문에 URL 수준에서 새 데이터 계층을 추가하기 위해 대규모 CSV 파일(수백만 행 업로드 가능)을 업로드할 수 있습니다. 이러한 특정 데이터(순위, CRM, 비즈니스, Google Ads 데이터 등)를 기반으로 고유한 세분화 및 필터를 구축하여 가장 전략적인 페이지가 목표를 달성하는지 확인할 수 있습니다.

오픈 API, 맞춤형 분석

OnCrawl은 API를 기반으로 구축된 플랫폼을 기반으로 합니다. OnCrawl REST API는 크롤링 데이터에 액세스하고 프로젝트 및 크롤링을 관리하는 데 사용됩니다. 이 API를 사용하려면 OnCrawl 계정, 활성 구독 및 액세스 토큰이 있어야 합니다.
이 API를 매우 쉽게 요청하기 위해 고유한 애플리케이션을 만들 수 있습니다. 이는 사용자 계정에서 생성된 API 토큰을 사용하거나 OAuth 애플리케이션을 사용하여 사용자 계정을 사용하여 OnCrawl에 연결하여 수행할 수 있습니다.

API를 사용하면 선호하는 프로그래밍 언어와 플랫폼을 사용하여 자체 환경에 배포된 OnCrawl의 많은 기능을 최대한 활용하는 애플리케이션을 작성할 수 있습니다. 즉, 사용자 지정 대시보드를 만들고 당사 데이터를 다른 플랫폼에 통합하며 사이트가 업데이트될 때마다 자동으로 크롤링을 트리거할 수 있습니다.

또한 통합을 더 쉽게 하기 위해 모든 차트에는 정보 아이콘에 API 호출과 응답 형식이 포함되어 있습니다.

무한 궤도

무한 궤도

시간 경과에 따른 추세 및 최적화

OnCrawl은 프로젝트 내에서 날짜별로 크롤링을 구성합니다. 구독이 활성화되어 있는 동안 크롤링 데이터를 저장하므로 몇 달 또는 몇 년 동안의 분석을 추적할 수 있습니다. 로그 모니터링 기능을 사용하는 경우 OnCrawl 애플리케이션은 웹사이트 방문자의 IP 주소 형식으로 개인 데이터를 처리합니다. 이 정보는 Googlebot과 다른 방문자를 확실하게 구별하기 위해 필요합니다. IP 주소는 OnCrawl 애플리케이션에 저장되지 않습니다. 이 데이터는 개인 보안 FTP에 업로드하는 원본 파일에만 존재합니다.

또한 동일한 크롤링 구성을 기반으로 두 개의 크롤링을 비교하여 시간 경과에 따른 추세와 변경 사항을 파악할 수 있는 광범위한 기능을 제공합니다. 이것은 스테이징과 라이브 버전을 비교하고 마이그레이션하는 동안 모든 것이 원활하게 진행되었는지 확인할 수 있는 좋은 방법입니다.
또한 팀 동료 또는 클라이언트와 프로젝트를 공유할 수 있습니다. 이는 최적화의 가치를 증명하고 결과를 공유할 수 있는 좋은 방법입니다.

중복 콘텐츠 비교

두 크롤링 간의 중복 콘텐츠 발전을 보여줍니다.

깊이 움직임

두 크롤 사이의 깊이 움직임의 진화를 보여줍니다.

모든 곳에서 의미론

혁신은 우리의 핵심 DNA에 있으며 우리는 수년간 기술 SEO를 전파하기 위해 노력해 왔습니다. 자연어 처리 문제에 대해 15년 넘게 일하면서 OnCrawl의 CTO인 Tanguy Moal은 의미 체계와 빅 데이터 기술을 병합하여 웹에서 사용할 수 있는 엄청난 양의 데이터를 이해하도록 도왔습니다. Simhash 알고리즘을 사용하여 최초의 거의 중복 콘텐츠 감지기를 달성했습니다.

콘텐츠 중복이 있는 페이지

표준 평가가 있는 유사한 페이지 클러스터 - 클러스터는 페이지 수 또는 콘텐츠 유사성 비율로 필터링할 수 있습니다.

우리는 또한 사용자가 고유한 콘텐츠 블록과 웹 페이지와 전체 웹사이트에서 복제 비율을 식별하는 데 도움이 되는 히트맵 콘텐츠 감지기에 대한 작업도 진행하고 있습니다. 의미 체계는 SEO 크롤러의 일부입니다. 처음부터 n-gram 분석을 사용하여 웹사이트 내에서 단어 시퀀스가 ​​배포되는 방식을 이해하는 데 도움을 받았습니다. 우리는 이러한 의미론적 기능을 갖춘 유일한 클라우드 기반 크롤러입니다. 대화식 검색 쿼리가 증가하는 영역에서 시맨틱 SEO는 의미 있는 메타데이터와 특정 검색 의도에 대한 답변을 명확하게 제공할 수 있는 시맨틱 관련 콘텐츠를 통해 웹사이트 트래픽을 개선하는 데 도움이 됩니다.
OnCrawl은 데스크톱 크롤러 그 이상이며 규모에 따라 비교할 수 없는 클라우드 기반 SEO 분석을 제공합니다. OnCrawl을 사용하면 웹사이트에서 검색 엔진이 작동하는 방식을 실제로 이해하고 자신 있게 SEO 전략을 수립할 수 있습니다.

그것에 대해 우리의 말을 받아들이지 마십시오. 직접 사용해 보고 지금 무료 평가판을 시작하십시오.

무료 평가판 시작