De ce OnCrawl este mult mai mult decât un crawler desktop: o scufundare profundă în platforma noastră SEO bazată pe cloud

Publicat: 2018-12-06

OnCrawl a fost construit în jurul nevoilor SEO ale jucătorului de comerț electronic francez nr. 1 în 2015. Aceasta a însemnat că a trebuit să ne extindem analiza și să ne ocupăm de un site web cu peste 50 de milioane de adrese URL într-o perioadă scurtă de timp. Greu, ai spune, pentru un jucător nou? De fapt, infrastructura noastră, pe care am cheltuit 1,5 milioane de euro doar în cercetare și dezvoltare și care a susținut anterior diferite proiecte de date, ne-a făcut mai ușor. Deoarece distincția dintre crawlerele desktop și cele bazate pe cloud este încă neclară uneori, ne-am gândit că ar putea fi util să explicăm de ce OnCrawl are mult mai mult de oferit decât un simplu crawler desktop - de la capabilități mari de scalare la integrări terță parte și viteza de analiză.

Scalare la infinit și dincolo

Crawlerele desktop au capacitatea de accesare limitată datorită resurselor și memoriei computerului pe care rulează. Cel mai probabil, acestea se vor limita la accesarea cu crawlere la doar câteva mii de adrese URL per accesare cu crawlere. Deși acest lucru poate fi ok pentru site-urile web mici, accesarea cu crawlere a acestor adrese URL poate dura mai mult decât cu un crawler SaaS (Software as a Service). Crawlerele bazate pe cloud sunt distribuite pe mai multe servere, astfel încât să nu fiți limitat de viteza și dimensiunea mașinii dvs.

Aceasta înseamnă că nu există nici un crawl pe care să nu ne putem descurca. Lucrăm pentru site-uri web mici, precum și pentru site-uri web foarte mari, inclusiv pentru unele dintre companiile Fortune 500. După cum sa spus în introducere, am dezvoltat crawler-ul nostru SEO după ce Cdiscount, cel mai mare site de comerț electronic din Franța, ne-a cerut să le construim o soluție personalizată pentru a gestiona cele peste 50 de milioane de URL-uri și nevoile lor de SEO într-un singur acces cu crawlere. În plus, capacitățile noastre de scalare ne-au făcut doi ani la rând cel mai bun instrument SEO la European Search Awards, ceremonia de lider în industria căutării. În prezent, colectăm până la 25 de milioane de URL-uri pe zi și pe site web, sau aproximativ 1 miliard de pagini web și 150 de miliarde de link-uri pe lună. Puteți afla mai multe despre tehnologia noastră și despre cum gestionăm politicile GDPR aici.

Viteză personalizată, capabilități extinse

Întrucât aplicația noastră este bazată pe cloud, nu trebuie să vă gândiți la resursele și capacitățile de viteză ale mașinii dvs. De asemenea, înseamnă că nu există nicio restricție în ceea ce privește sincronizarea sau numărul de accesări cu crawlere care pot fi lansate. Puteți lansa câte accesări cu crawlere vă permite abonamentul și puteți face alte lucruri în timp ce se accesează cu crawlere. Utilizarea unei soluții bazate pe cloud înseamnă, de asemenea, că puteți închide fereastra aplicației și puteți aștepta ca accesarea cu crawlere să se termine – funcționează de la sine și nu are nevoie de supravegherea dvs. OnCrawl vă permite să programați accesări cu crawlere în funcție de nevoile dvs. SEO, indiferent dacă trebuie să vă accesați cu crawlere site-ul o dată pe săptămână sau în fiecare lună. De asemenea, puteți decide să vă accelerați analiza dacă aveți nevoie de ele mai repede.
Deoarece aplicația OnCrawl poate fi utilizată pentru a accesa cu crawlere orice site web, botul nostru va urma directiva Crawl-Delay exprimată în fișierul robots.txt găsit pe site-ul țintă, dacă există.
În caz contrar, limităm rata de accesare cu crawlere la viteza de 1 pagină pe secundă, astfel încât botul nostru nu este prea agresiv împotriva site-ului vizat.
Când un site web are o directivă Crawl-Delay mai mare de 1, aplicația noastră emite un avertisment pentru a vă anunța că accesarea cu crawlere va fi mai mică decât viteza solicitată.
Dacă Crawl-Delay este mai mare de 30, afișăm o eroare. Pur și simplu nu vă vom permite să configurați un acces cu crawlere cu o întârziere atât de mare.
Singura modalitate de a configura un acces cu crawlere în aceste circumstanțe este să utilizați un fișier virtual robots.txt.
Pentru a face acest lucru, trebuie mai întâi să validați proiectul cu contul dvs. Google Analytics, astfel încât să ne putem asigura că aveți un fel de proprietate asupra domeniului pe care doriți să îl accesați cu crawlere.

Avem câțiva parametri diferiți care vă permit să preluați controlul accesului cu crawlere:

  • Accelerează-ți târâșul
  • Întrerupeți, opriți, relansați sau anulați un acces cu crawlere
  • Programați o accesare cu crawlere pentru a evita orele de vârf de trafic și pentru a reduce stresul pe serverul dvs. atunci când roboții noștri vin pe site-ul dvs
  • Vedeți în timp real paginile care au fost preluate, numărul de adrese URL pe care le-am preluat până acum și vedeți dacă există vreo problemă care vă încetinește accesarea cu crawlere.

screenshot_progression cu crawler

captură de ecran cu progresia crawler_fetch

Analiza fișierelor jurnal este ușoară

OnCrawl este mult mai mult decât un simplu crawler SEO. În ultimii ani, am lansat, de asemenea, un puternic analizor de fișiere jurnal care abordează probleme pe care nicio altă soluție SEO nu le-a găsit.

Fișierele jurnal complete sunt o reflectare perfectă a vieții site-ului dvs. Fie că este vorba despre vizitatori sau roboți, pagini afișate sau apeluri la resurse, orice activitate de pe site-ul tău este scrisă în el.

Cu informații precum adresa IP, codul de stare, agentul utilizatorului, referitor și alte date tehnice, fiecare linie de jurnale (date de la partea serverului) vă poate ajuta să finalizați analiza site-ului dvs., care se bazează cel mai adesea pe analize (mai mult pe partea clientului). orientat).

Analizatorul nostru de fișiere jurnal acceptă orice tip de formate de jurnal, de la cele standard precum IIS, Apache pe Ngnix până la formate mai personalizate. Nu există nicio analiză pe care să nu o putem face. De asemenea, permitem utilizatorilor noștri să-și recupereze în mod direct datele de jurnal de la soluții terțe precum Splunk, ELK / Elastic Stack, Amazon S3, OVH (ES) sau Cloudflare.

Aceasta înseamnă că nu veți mai rămâne blocat cu un manager de fișiere jurnal de la terți, așa cum sunteți cu unii dintre concurenții noștri.

Interfața noastră facilitează încărcarea automată a fișierelor de jurnal printr-un FTP securizat și privat. Este nevoie de doar câțiva pași pentru a finaliza analiza fișierelor jurnal.

tractor pe şenile

De asemenea, puteți monitoriza procesarea fișierelor în timp real și puteți vedea dacă există vreo eroare care blochează încărcarea acestora.

instrumente pentru managerul crawler_log

Integrari nelimitate cu terțe părți

OnCrawl a lucrat la dezvoltarea de conectori încorporați cu soluții de top de marketing de căutare, fără de care SEO nu pot trăi: Google Search Console, Google Analytics, Adobe Analytics sau Majestic, pentru a numi doar câteva. Integrarea acestor soluții în procesul dvs. de audit nu este redundantă: oferă o imagine mai cuprinzătoare a performanței și a sănătății site-ului dvs. pe motoarele de căutare și clarifică modul în care roboții și vizitatorii se comportă cu adevărat pe site-ul dvs. De asemenea, economisiți timp și efort, deoarece nu trebuie să analizați manual aceste date ulterior în foile de calcul Excel.

Raport backlink

Am construit o relație de încredere cu Majestic, cea mai importantă soluție de informații despre legături. Analiza noastră încrucișată vă permite să combinați datele dvs. de accesare cu crawlere și datele din jurnal cu datele dvs. de backlink pentru a înțelege influența backlink-urilor asupra traficului dvs. SEO și a frecvenței de accesare cu crawlere. Odată ce ați configurat o segmentare la nivel de site a grupurilor personalizate de pagini pe baza celor mai importanți KPI-uri. De asemenea, puteți vizualiza numărul de backlink-uri în raport cu nivelul de adâncime a clicurilor pe pagină sau puteți examina dacă numărul de backlink-uri are o influență asupra comportamentului Google.
Analizele pe care le oferim, în care datele backlink-urilor sunt corelate și combinate la nivel de URL și de accesări la bot, sunt în prezent singurele de pe piață.

tractor pe şenile

Raport de clasare

De asemenea, am dezvoltat un conector unic la Google Search Console pentru a înțelege cum este găsit și indexat site-ul dvs. și modul în care optimizările dvs. de pe pagină au impact asupra traficului și indexării dvs. Oferim informații standard, dar exhaustive cu privire la distribuția cuvintelor cheie, afișările, clicurile și rata de clic de-a lungul timpului, indiferent dacă este pe desktop sau mobil, pentru cuvinte cheie de marcă sau fără marcă sau cu privire la grupurile dvs. de pagini. Mai important, oferim și analize unice pe care niciunul dintre concurenții noștri nu a realizat-o.
OnCrawl folosește segmentările și datele dvs. din fișierele dvs. jurnal pentru a interpreta datele dvs. de clasare. Puteți identifica astfel caracteristicile comune ale paginilor care se clasifică și ale celor care nu o fac în ceea ce privește profunzimea, popularitatea internă, numărul de cuvinte, inlinkurile, timpul de încărcare și evaluarea titlului. Nu numai asta, dar puteți examina și impactul lungimii descrierii și al datelor structurate asupra ratei de clic.
În cele din urmă, OnCrawl Rankings vă permite să combinați accesul cu crawlere, fișierele jurnal și datele din Search Console la scară pentru a evidenția paginile clasate și pentru a înțelege dacă bugetul de accesare cu crawlere vă influențează pozițiile. Niciun alt acces cu crawlere, indiferent dacă este desktop sau bazat pe cloud, nu acceptă astfel de funcții.

Raport statistic

Vă permitem să vă conectați Google Analytics sau Adobe Analytics (ex-Omniture) pentru a înțelege modul în care SEO pe pagină și tehnic afectează performanța traficului organic din motoarele de căutare. Vă ajutăm să monitorizați performanța traficului SEO și comportamentul utilizatorilor cu privire la fiecare secțiune a site-ului dvs.

CSV Ingest

În timp ce lucrăm constant la noi integrări din soluții terțe, nu am vrut să vă lăsăm fără un anumit tip de date de care ați putea avea nevoie pentru a vă desfășura auditurile tehnice SEO. De aceea, vă permitem să încărcați fișiere CSV la scară (puteți încărca milioane de rânduri) pentru a adăuga un nou strat de date la nivel de adresă URL. Vă puteți construi propriile segmente și filtre pe baza acestor date particulare (clasare, CRM, afaceri, date Google Ads etc.) pentru a vedea dacă cele mai strategice pagini ale dvs. vă îndeplinesc obiectivele.

Deschide API, analiză personalizată

OnCrawl se bazează pe o platformă construită în jurul unui API. API-ul OnCrawl REST este utilizat pentru accesarea datelor de accesare cu crawlere, precum și pentru gestionarea proiectelor și a accesărilor cu crawlere. Pentru a utiliza acest API trebuie să aveți un cont OnCrawl, un abonament activ și un token de acces.
Vă puteți crea propria aplicație pentru a solicita acest API foarte ușor. Acest lucru se poate face folosind un token API generat de contul de utilizator sau folosind o aplicație OAuth pentru a vă conecta la OnCrawl folosind contul utilizatorului.

Folosind API-ul nostru, puteți scrie aplicații care profită la maximum de numeroasele caracteristici ale OnCrawl, implementate în propriul mediu, folosind limbajul de programare și platformele pe care le preferați. Aceasta înseamnă că puteți crea tablouri de bord personalizate, puteți integra datele noastre în alte platforme și puteți declanșa automat o accesare cu crawlere ori de câte ori un site este actualizat.

De asemenea, pentru a vă facilita integrarea, toate diagramele noastre includ apelurile API și formatul de răspuns din pictograma de informații.

tractor pe şenile

tractor pe şenile

Tendințe și optimizări în timp

OnCrawl vă organizează accesările cu crawlere în funcție de dată în cadrul proiectelor dvs. Stocăm datele de accesare cu crawlere cât timp abonamentul este activ, ceea ce înseamnă că puteți urmări luni sau chiar ani de analize. Vă rugăm să rețineți că, dacă utilizați funcția noastră de monitorizare a jurnalului, aplicația OnCrawl gestionează datele personale sub forma adreselor IP ale vizitatorilor site-ului dvs. Aceste informații sunt necesare pentru a distinge în mod fiabil între Googlebots și alți vizitatori. Adresele IP nu sunt stocate în aplicația OnCrawl. Aceste date există numai în fișierul original pe care îl încărcați pe FTP-ul dvs. privat și securizat.

De asemenea, oferim funcții extinse care vă permit să comparați două accesări cu crawlere, pe baza aceleiași configurații de accesare cu crawlere, pentru a identifica tendințele și schimbările de-a lungul timpului. Aceasta este o modalitate excelentă de a compara o versiune în scenă și o versiune live și de a verifica dacă totul a decurs fără probleme în timpul migrării.
De asemenea, vă puteți împărtăși proiectele cu colegii de echipă sau clienții, ceea ce este o modalitate excelentă de a demonstra valoarea optimizărilor dvs. și de a împărtăși rezultatele.

comparație de conținut duplicat

Afișează evoluția conținutului duplicat între două accesări cu crawlere

mișcări de adâncime

Arătând evoluția mișcărilor de adâncime între două târâituri

Semantică peste tot

Inovația este în ADN-ul nostru de bază și lucrăm de ani de zile la evanghelizarea SEO tehnic. Cu peste 15 ani de lucru pe probleme de procesare a limbajului natural, Tanguy Moal, CTO la OnCrawl, ne-a ajutat să îmbinăm tehnologiile semantice și Big Data pentru a înțelege volumul imens de date disponibile pe web. Am realizat primul detector de conținut aproape duplicat folosind algoritmul Simhash.

pagini cu duplicare a conținutului

Cluster de pagini similare cu evaluare canonică – clusterele pot fi filtrate după numărul de pagini sau procentul de asemănare a conținutului

De asemenea, am lucrat recent la un detector de conținut de hărți termice care îi ajută pe utilizatorii noștri să identifice blocuri de conținut unic și procentul de duplicare a paginilor web și a întregului site web. Semantica face parte din crawler-ul nostru SEO: analiza n-grame a fost disponibilă încă de la început pentru a vă ajuta să înțelegeți cum sunt distribuite secvențele de cuvinte într-un site web. Suntem singurul crawler bazat pe cloud cu astfel de capacități semantice. Într-o zonă în care interogările de căutare conversaționale sunt în creștere, SEO semantic vă ajută să îmbunătățiți traficul către un site web prin metadate semnificative și conținut relevant din punct de vedere semantic, care poate oferi fără ambiguitate un răspuns pentru o anumită intenție de căutare.
OnCrawl este mult mai mult decât un crawler desktop și oferă analize SEO de neegalat și bazate pe cloud la scară. OnCrawl vă permite să acționați pentru a înțelege cu adevărat cum se comportă motoarele de căutare pe site-ul dvs. și pentru a crea o strategie SEO cu încredere.

Nu ne crede pe cuvânt. Încercați-l singur și începeți proba gratuită astăzi.

Începe perioada gratuită de testare