Perché OnCrawl è molto più di un crawler desktop: un tuffo nella nostra piattaforma SEO basata su cloud

Pubblicato: 2018-12-06

OnCrawl è stato costruito attorno alle esigenze SEO del giocatore di e-commerce n. 1 francese nel 2015. Ciò significava che dovevamo ridimensionare la nostra analisi e gestire un sito Web con più di 50 milioni di URL in un breve periodo di tempo. Difficile, diresti, per un nuovo giocatore? In realtà, la nostra infrastruttura, per la quale abbiamo speso 1,5 milioni di euro solo in ricerca e sviluppo e che in precedenza aveva supportato diversi progetti di dati, ha semplificato le cose. Poiché la distinzione tra crawler desktop e cloud a volte non è ancora chiara, abbiamo pensato che potesse essere utile spiegare perché OnCrawl ha molto di più da offrire di un semplice crawler desktop: dalle capacità di scalabilità elevata alle integrazioni di terze parti e alla velocità di analisi.

Scalabilità verso l'infinito e oltre

I crawler desktop hanno una capacità di scansione limitata a causa delle risorse e della memoria del computer su cui sono in esecuzione. È molto probabile che si limitino a eseguire la scansione di poche migliaia di URL per scansione. Anche se questo può andare bene per i piccoli siti web, la scansione di questi URL può comunque richiedere più tempo rispetto a un crawler SaaS (Software as a Service). I crawler basati su cloud sono distribuiti su molti server, quindi non sei limitato dalla velocità e dalle dimensioni della tua macchina.

Ciò significa che non c'è scansione che non possiamo gestire. Abbiamo lavorato per piccoli siti Web e per siti Web molto grandi, comprese alcune delle aziende Fortune 500. Come detto nell'introduzione, abbiamo sviluppato il nostro crawler SEO dopo che Cdiscount, il più grande sito di e-commerce in Francia, ci ha chiesto di creare una soluzione personalizzata per gestire i loro oltre 50 milioni di URL e le loro esigenze SEO in un'unica scansione. Inoltre, le nostre capacità di ridimensionamento ci hanno reso per due anni consecutivi il miglior strumento SEO agli European Search Awards, la cerimonia leader nel settore della ricerca. Attualmente raccogliamo fino a 25 milioni di URL al giorno e per sito Web, ovvero circa 1 miliardo di pagine Web e 150 miliardi di collegamenti al mese. Puoi saperne di più sulla nostra tecnologia e su come gestiamo le politiche GDPR qui.

Velocità personalizzata, capacità estese

Poiché la nostra applicazione è basata su cloud, non devi pensare alle risorse e alle capacità di velocità della tua macchina. Significa anche che non ci sono restrizioni relative ai tempi o al numero di scansioni che possono essere avviate. Puoi avviare tutte le scansioni consentite dal tuo abbonamento e fare altre cose durante la scansione. L'utilizzo di una soluzione basata su cloud significa anche che puoi chiudere la finestra dell'applicazione e attendere che la scansione sia completata: funziona da sola e non ha bisogno della tua sorveglianza. OnCrawl ti consente di pianificare le scansioni in base alle tue esigenze SEO, indipendentemente dal fatto che tu debba eseguire la scansione del tuo sito una volta alla settimana o ogni mese. Puoi anche decidere di velocizzare la tua analisi se ne hai bisogno più velocemente.
Poiché l'app OnCrawl può essere utilizzata per eseguire la scansione di qualsiasi sito Web, il nostro bot seguirà la direttiva Crawl-Delay espressa nel file robots.txt che si trova sul sito Web di destinazione, se presente.
In caso contrario, limitiamo la velocità di scansione alla velocità di 1 pagina al secondo, in modo che il nostro bot non sia troppo aggressivo nei confronti del sito Web di destinazione.
Quando un sito Web ha una direttiva Crawl-Delay maggiore di 1, la nostra applicazione emette un avviso per informarti che la scansione sarà più lenta della velocità richiesta.
Se il Crawl-Delay è maggiore di 30, viene visualizzato un errore. Semplicemente non ti consentiremo di configurare una scansione con un ritardo di scansione così elevato.
L'unico modo per impostare una scansione in queste circostanze è utilizzare un file robots.txt virtuale.
Per fare ciò, devi prima convalidare il progetto con il tuo account Google Analytics, così possiamo assicurarci che tu abbia una sorta di proprietà sul dominio di cui desideri eseguire la scansione.

Abbiamo alcuni parametri diversi che ti consentono di prendere il controllo della tua scansione:

  • Accelera la tua scansione
  • Mettere in pausa, interrompere, riavviare o interrompere una scansione
  • Pianifica una scansione per evitare i picchi di traffico e alleviare lo stress sul tuo server quando i nostri bot arrivano sul tuo sito
  • Visualizza in tempo reale le pagine che sono state recuperate, il numero di URL recuperati finora e verifica se ci sono problemi che rallentano la scansione.

crawler screenshot_progression

crawler_fetch screenshot della progressione

Analisi dei file di registro semplificata

OnCrawl è molto più di un semplice crawler SEO. Negli ultimi anni, abbiamo anche rilasciato un potente analizzatore di file di registro che affronta problemi che nessun'altra soluzione SEO ha trovato.

I file di registro completi riflettono perfettamente la vita del tuo sito. Che si tratti di visitatori o bot, pagine visualizzate o chiamate a risorse, qualsiasi attività sul tuo sito è scritta in esso.

Con informazioni come indirizzo IP, codice di stato, user-agent, referrer e altri dati tecnici, ogni riga di log (dati lato server) può aiutarti a completare l'analisi del tuo sito, che molto spesso è basata su analisi (più lato client orientato).

Il nostro analizzatore di file di registro supporta qualsiasi tipo di formato di registro, da quelli standard come IIS, Apache su Ngnix a formati più personalizzati. Non c'è analisi che non possiamo fare. Consentiamo inoltre ai nostri utenti di recuperare direttamente i dati dei loro log da soluzioni di terze parti come Splunk, ELK/Elastic Stack, Amazon S3, OVH (ES) o Cloudflare.

Ciò significa che non sarai più bloccato con un gestore di file di registro di terze parti aggiuntivo, come lo sei con alcuni dei nostri concorrenti.

La nostra interfaccia semplifica il caricamento automatico dei file di registro tramite un FTP sicuro e privato. Sono necessari solo pochi passaggi per completare l'analisi dei file di registro.

cingolato

Puoi anche monitorare l'elaborazione dei file in tempo reale e vedere se ci sono errori che bloccano il loro caricamento.

strumenti di gestione di crawler_log

Integrazioni di terze parti illimitate

OnCrawl ha lavorato allo sviluppo di connettori integrati con le principali soluzioni di marketing dei motori di ricerca di cui i SEO non possono fare a meno: Google Search Console, Google Analytics, Adobe Analytics o Majestic, solo per citarne alcuni. L'integrazione di queste soluzioni nel processo di audit non è ridondante: fornisce una visione più completa delle prestazioni e dello stato di salute del tuo sito Web sui motori di ricerca e chiarisce come si comportano realmente i bot e i visitatori sul tuo sito Web. Stai anche risparmiando tempo e fatica poiché non è necessario sgranocchiare manualmente questi dati in un secondo momento nei fogli di calcolo di Excel.

Rapporto sul collegamento a ritroso

Abbiamo instaurato un rapporto di fiducia con Majestic, la principale soluzione di link intelligence. La nostra analisi dei dati incrociati ti consente di combinare i dati di scansione e i dati di registro con i dati di backlink per comprendere l'influenza dei backlink sul traffico SEO e sulla frequenza di scansione. Dopo aver impostato una segmentazione a livello di sito di gruppi personalizzati di pagine in base ai KPI più importanti. Puoi anche visualizzare il numero di backlink in relazione al livello di profondità dei clic sulla pagina o esaminare se il numero di backlink ha un'influenza sul comportamento di Google.
Le analisi che forniamo, in cui i dati dei backlink sono correlati e combinati a livello di URL e hit di bot, sono attualmente le uniche sul mercato.

cingolato

Rapporto di classifica

Abbiamo anche sviluppato un connettore unico per Google Search Console per capire come il tuo sito viene trovato e indicizzato e in che modo le tue ottimizzazioni on-page hanno un impatto sul traffico e sull'indicizzazione. Forniamo informazioni standard ma esaurienti sulla distribuzione delle parole chiave, sulle impressioni, sui clic e sulla percentuale di clic nel tempo, sia su desktop che su dispositivi mobili, per parole chiave con o senza marchio o per gruppi di pagine. Ancora più importante, offriamo anche analisi uniche che nessuno dei nostri concorrenti ha ottenuto.
OnCrawl utilizza le tue segmentazioni e i dati dei tuoi file di registro per interpretare i tuoi dati di ranking. Puoi così identificare le caratteristiche comuni delle pagine che si classificano e quelle che non riguardano la profondità, la popolarità interna, il conteggio delle parole, gli inlink, il tempo di caricamento e la valutazione del titolo. Non solo, puoi anche esaminare l'impatto della lunghezza della descrizione e dei dati strutturati sulla percentuale di clic.
Infine, OnCrawl Rankings ti consente di combinare la scansione, i file di registro e i dati di Search Console su larga scala per evidenziare le pagine classificate e capire se il budget di scansione sta influenzando le tue posizioni. Nessun'altra scansione, sia desktop che basata su cloud, supporta tali funzionalità.

Rapporto di analisi

Ti permettiamo di collegare il tuo Google Analytics o Adobe Analytics (ex Omniture) per capire come la SEO on-page e tecnica influisca sulle performance di traffico organico dei motori di ricerca. Ti aiutiamo a monitorare le prestazioni del traffico SEO e il comportamento degli utenti in merito a ciascuna sezione del tuo sito web.

Acquisizione CSV

Sebbene lavoriamo costantemente su nuove integrazioni da soluzioni di terze parti, non volevamo lasciarti senza un particolare tipo di dati di cui potresti aver bisogno per eseguire i tuoi audit SEO tecnici. Ecco perché ti permettiamo di caricare file CSV su larga scala (puoi caricare milioni di righe) per aggiungere un nuovo livello di dati a livello di URL. Puoi creare le tue segmentazioni e filtri personalizzati in base a questi dati particolari (classifiche, CRM, business, dati di Google Ads, ecc.) per vedere se le tue pagine più strategiche soddisfano i tuoi obiettivi.

API aperta, analisi personalizzata

OnCrawl si basa su una piattaforma costruita attorno a un'API. L'API REST di OnCrawl viene utilizzata per accedere ai dati di scansione e per gestire i progetti e le scansioni. Per utilizzare questa API è necessario disporre di un account OnCrawl, un abbonamento attivo e un token di accesso.
Puoi creare la tua applicazione per richiedere questa API molto facilmente. Questa operazione può essere eseguita utilizzando un token API generato dall'account utente o utilizzando un'applicazione OAuth per connettersi a OnCrawl utilizzando l'account utente.

Utilizzando la nostra API, puoi scrivere applicazioni che sfruttano al meglio le numerose funzionalità di OnCrawl, distribuite nel tuo ambiente, utilizzando il linguaggio di programmazione e le piattaforme che preferisci. Ciò significa che puoi creare dashboard personalizzati, integrare i nostri dati in altre piattaforme e attivare automaticamente una scansione ogni volta che un sito viene aggiornato.

Inoltre, per semplificare l'integrazione, tutti i nostri grafici includono le chiamate API e il formato di risposta nell'icona delle informazioni.

cingolato

cingolato

Tendenze e ottimizzazioni nel tempo

OnCrawl organizza i tuoi crawl per data all'interno dei tuoi progetti. Conserviamo i tuoi dati di scansione mentre il tuo abbonamento è attivo, il che significa che puoi tenere traccia di mesi o addirittura anni di analisi. Tieni presente che se utilizzi la nostra funzione di monitoraggio dei log, l'applicazione OnCrawl gestisce i dati personali sotto forma di indirizzi IP dei visitatori del tuo sito web. Queste informazioni sono necessarie per distinguere in modo affidabile tra Googlebot e altri visitatori. Gli indirizzi IP non vengono memorizzati nell'applicazione OnCrawl. Questi dati esistono solo nel file originale che carichi sul tuo FTP privato e sicuro.

Offriamo inoltre funzionalità complete che ti consentono di confrontare due scansioni, basate sulla stessa configurazione di scansione, per individuare tendenze e cambiamenti nel tempo. Questo è un ottimo modo per confrontare una versione di staging e una live e verificare se tutto è andato liscio durante la migrazione.
Puoi anche condividere i tuoi progetti con compagni di squadra o clienti, il che è un ottimo modo per dimostrare il valore delle tue ottimizzazioni e condividere i risultati.

confronto di contenuti duplicati

Mostra l'evoluzione del contenuto duplicato tra due scansioni

movimenti di profondità

Mostra l'evoluzione dei movimenti di profondità tra due crawl

Semantica ovunque

L'innovazione è nel nostro DNA centrale e da anni lavoriamo per evangelizzare la SEO tecnica. Con oltre 15 anni di lavoro su problemi di elaborazione del linguaggio naturale, Tanguy Moal, CTO di OnCrawl, ci ha aiutato a unire le tecnologie semantiche e Big Data per dare un senso all'enorme volume di dati disponibili sul web. Abbiamo ottenuto il primo rilevatore di contenuti quasi duplicati in assoluto utilizzando l'algoritmo Simhash.

pagine con duplicazione dei contenuti

Cluster di pagine simili con valutazione canonica: i cluster possono essere filtrati in base al numero di pagine o alla percentuale di somiglianza dei contenuti

Di recente abbiamo anche lavorato su un rilevatore di contenuti heatmap che aiuta i nostri utenti a identificare blocchi di contenuti unici e la percentuale di duplicazione su pagine Web e un intero sito Web. La semantica fa parte del nostro crawler SEO: l'analisi n-grams è stata disponibile fin dall'inizio per aiutarti a capire come le sequenze di parole sono distribuite all'interno di un sito web. Siamo l'unico crawler basato su cloud con tali capacità semantiche. In un'area in cui le query di ricerca conversazionale sono in aumento, la SEO semantica ti aiuta a migliorare il traffico verso un sito Web attraverso metadati significativi e contenuti semanticamente rilevanti che possono fornire una risposta inequivocabile per uno specifico intento di ricerca.
OnCrawl è molto più di un crawler desktop e offre analisi SEO su larga scala senza precedenti e basate su cloud. OnCrawl ti permette di agire per capire davvero come si comportano i motori di ricerca sul tuo sito web e per creare una strategia SEO con sicurezza.

Non crederci sulla parola. Provalo tu stesso e inizia oggi la tua prova gratuita.

Inizia la tua prova gratuita