DataLakes e DataWarehouse: come vengono utilizzati nella SEO
Pubblicato: 2021-02-16Sebbene i concetti di DataWarehouse e DataLakes siano diventati parte del linguaggio quotidiano di analisti di dati e scienziati di dati molto tempo fa, ne abbiamo sentito parlare in altri settori solo negli ultimi anni.
Ad esempio, analisti web ed esperti SEO stanno iniziando a prendere seriamente in considerazione questi concetti, a causa della natura del loro lavoro e della forte connessione che esiste tra ciò che fanno e la manipolazione dei dati. Molti articoli recenti parlano dell'interesse di implementare un SEO DataLake o un SEO DataWarehouse, trattando i due termini come intercambiabili e senza fare distinzione tra i due.
In questo articolo, ti guideremo nel determinare le differenze tra DataLakes e DataWarehouse per comprenderne le finalità e i casi d'uso in SEO e analisi web.
DataWarehouse: magazzino strutturato per i dati
Il primo utilizzo del termine “DataWarehouse” risale al 1988 in un articolo di Paul Murphy e Barry Delvin, An architecture for a business and information systems . Questo articolo fornisce una prima definizione del concetto di ambiente di database relazionale di facile accesso, che riunisce tutti i dati aziendali utili per il processo decisionale strategico.
Cosa contiene un DataWarehouse?
Il DataWarehouse è utilizzato per raccogliere in un unico luogo i dati aziendali utili alle decisioni strategiche per l'azienda. Stiamo parlando di dati aziendali che possono coprire qualsiasi cosa, dai dati dei clienti, alle informazioni sull'inventario, alle conversioni su un sito Web commerciale o alle visite organiche (da un motore di ricerca come Google, ad esempio).
È comunemente accettato che i dati inviati a un DataWarehouse siano dati strutturati e pre-elaborati utilizzati per scaricare i database operativi, il che in definitiva consente a questi database operativi di essere sollecitati il meno possibile a fini di query.
L'obiettivo principale di un DataWarehouse e di chi lo gestisce è quello di compilare dati provenienti da fonti diverse ed eterogenee (sia interne che esterne) in modo da standardizzarli in modo che le varie fonti possano comunicare tra loro. L'obiettivo finale è utilizzare questi dati per effettuare analisi, reportistica, supporto decisionale, ecc.
Chi sono gli utenti giornalieri di un DataWarehouse?
A causa della natura di DataWarehouse e del formato e del tipo di dati che contiene, è un terreno di gioco ideale per analisti di dati e Web.
Data Analysts lavora insieme all'amministratore di DataWarehouse (o al team di amministrazione). Definiscono le esigenze aziendali e i casi d'uso. Identificano le origini dati e le azioni necessarie per elaborare i dati a monte. Questi dati verranno quindi utilizzati dagli analisti dei dati alla fine della catena.
Come comunicano gli utenti con un DataWarehouse?
Una volta che le origini dati sono state identificate e i dati elaborati, ingeriti e collegati nel DataWarehouse, l'analista dati può utilizzare questi dati nelle analisi e creare nuove combinazioni di dati. Questo processo può essere utilizzato per mantenere dashboard di reporting, dashboard di avviso, ecc.
Il linguaggio di programmazione più comunemente usato per eseguire query in un DataWarehouse è SQL (o linguaggi simili a SQL). SQL consente agli analisti di dati di manipolare ed elaborare i dati per soddisfare le esigenze aziendali: monitoraggio, processo decisionale strategico, ecc.
Quali casi d'uso e tipi di progetto servono DataWarehouses?
È impossibile stilare un elenco esaustivo dei casi d'uso che coinvolgono l'utilizzo di un DataWarehouse. Tuttavia, ecco alcuni esempi di progetti su cui è probabile che un Data Analyst lavorerà:
Miglioramento di un DataWarehouse:
Questo tipo di progetto si incontra spesso quando si configura un DataWarehouse, ma anche quando viene identificata una nuova esigenza o caso d'uso aziendale.
Si tratta qui di aggiungere nuovi dati a un DWH (di nuovo, possono essere dati interni o esterni).
In questo caso si parla spesso di un processo ETL (Extraction-Transformation-Loading):
- Estrazione:
Un primo passo che consiste nell'identificare e raccogliere i dati dalle varie fonti necessari per ulteriori operazioni. - Trasformazione:
Questo secondo passaggio è molto importante, perché senza aggiustamenti, senza standardizzazione, è generalmente impossibile utilizzare nuovi dati e farli comunicare con quelli già esistenti nel DWH.
Si tratta quindi di una fase di necessaria standardizzazione che a volte può essere complicata dalla rigidità imposta dal DWH in termini di formattazione e schema delle tabelle. - Caricamento in corso:
Fase di acquisizione dei dati elaborati (e quindi strutturati) nel DWH.
Realizzazione di analisi statistiche:
Questo è un uso molto frequente di DWH. L'obiettivo può essere dimostrare X o Y attraverso i dati, produrre statistiche basate sui dati storici disponibili o stabilire collegamenti causali per spiegare una scoperta, ecc.
Segnalazione e avviso:
Questo è, ancora una volta, un caso d'uso molto frequente. Infatti, poiché i dati in un DWH sono altamente strutturati e formattati (condividendo uno schema fisso e predefinito), sono tutti adatti per inviare dati a dashboard di segnalazione o avviso.
Si tratta di una richiesta ricorrente del top management, che deve poter monitorare i team operativi e lo stato di salute dei risultati, delle vendite, ecc. nel modo più semplice e veloce possibile.
Se riassumiamo tutti questi, abbiamo più o meno 2 tipi di progetti: progetti di acquisizione e integrazione dei dati (che possono anche essere paragonati a una forma di archiviazione e storicizzazione dei dati) e progetti di analisi e valutazione dei dati (attraverso il monitoraggio/dashboard e avvisi ).
Il concetto di DWH è presente da tempo nel linguaggio quotidiano di chi lavora con i dati. Come funziona e i suoi numerosi casi d'uso sono stati confermati da tempo e i DWH possono essere trovati in molte aziende di varia maturità per quanto riguarda le questioni di gestione dei dati.
Questo è meno il caso del concetto di DataLakes, che è molto più giovane e molto meno diffuso.
Scansione dati³
DataLake: lago di megadata (BigData)
L'origine di questo concetto è da attribuire a James Dixon, CTO di Penthao, che lo definisce come una soluzione per archiviare e sfruttare grandi volumi di dati, senza pre-elaborazione e senza necessariamente un caso d'uso specifico... A differenza dei DWH, che sono molto orientati verso l'attivazione immediata.
Il DL cerca di colmare il gap, sempre più importante con l'emergere dei BigData, di cosa fare con tutta questa massa di dati che oggi siamo in grado di raccogliere e come trarne vantaggio.
Cosa contiene un DataLake?
Inizierò citando James Dixon che usa un confronto molto evocativo, servendo sia come spiegazione per il nome "lago" del suo concetto sia come differenziazione con il DWH:
“Se si pensa a un datamart come a un deposito di acqua in bottiglia – depurata, confezionata e strutturata per un facile consumo – il data lake è un grande specchio d'acqua in uno stato più naturale. Il contenuto del data lake fluisce da una fonte per riempire il lago e vari utenti del lago possono venire per esaminare, immergersi o prelevare campioni".
Questa citazione illustra perfettamente la differenza tra il tipo di dati contenuti in un DWH, che è strutturato e organizzato in tabelle con schemi precisi e fissi, e il tipo di dati contenuti in un DataLake, che è grezzo, senza elaborazioni preliminari, disponibile per l'acquisizione campioni da quanto necessario, esplorativo o meno.
Laddove un DWH è limitato a contenere dati strutturati, DataLake è fatto per memorizzare tutti i tipi di dati grezzi (strutturati o meno). Un dibattito tra Tamara Dull (Amazon Web Service) e Anne Buff (Microsoft SAS) ci offre una visione leggermente più concreta del contenuto di un DataLake:
“Un data lake è un repository di archiviazione che contiene una grande quantità di dati grezzi nel suo formato nativo, inclusi dati strutturati, semi-strutturati e non strutturati. La struttura dei dati e i requisiti non sono definiti finché i dati non sono necessari".
Chi sono gli utenti giornalieri di DataLakes?
Laddove un Data Analyst era perfettamente adatto a lavorare con i dati strutturati contenuti in un ACS, i dati grezzi sono invece la specialità dei Data Scientist, che spesso sono meglio attrezzati per manipolare questo tipo di dati.
Questa modifica del profilo dati e dell'utente principale si traduce anche in linguaggi di programmazione e casi d'uso diversi.
Quali casi d'uso e tipi di progetto servono DataLakes?
A causa della sua natura non strutturata e del notevole volume di dati che un DataLake può contenere, i casi d'uso possono essere molto diversi da quelli precedentemente trovati nel framework DWH, ad esempio:
- L'implementazione di algoritmi di machine learning per creare valore aggiunto per i BigData:
Parliamo spesso qui di analisi predittiva, basata su algoritmi di machine learning che sfruttano tutti i tipi di dati.
Per fare un esempio più concreto, immaginiamo che un'azienda del settore finanziario (bancario e assicurativo) voglia determinare la probabilità che una transazione finanziaria X sia fraudolenta. Questo potrebbe avvalersi di Data Scientist, in grado di creare algoritmi di machine learning che si alleneranno sulla quantità astronomica di dati contenuti nel DataLake (importo, data, frequenza, profilo abituale delle transazioni effettuate dal titolare dell'account, ecc.). L'obiettivo è condurre uno studio predittivo che verrà utilizzato per identificare le transazioni potenzialmente fraudolente e consentire così all'azienda di ridurre i tempi di reazione nel rilevarle e, in definitiva, evitare grandi perdite per loro e per i loro clienti.
Questo è un semplice esempio che viene regolarmente utilizzato per illustrare l'interesse e il valore aggiunto dell'apprendimento automatico, ma ce ne sono tanti altri, come puoi immaginare. - DataLakes come origine dati per un DataWarehouse:
Molto semplicemente, un DataLake può fungere da zona di transito tra le varie fonti di dati interne ed esterne e il DWH. Il principio stesso di un DataLake è quello di centralizzare tutti i tipi di dati, strutturati o non strutturati, al fine di eseguire studi predittivi tramite ML o per l'estrazione come campioni per l'analisi. Il DWH sembra quindi molto adatto per questa seconda categoria di progetti e beneficia di un DataLake come potenziale fonte (a condizione che i dati DataLake siano importati in modo strutturato tramite pre-elaborazione, se necessario). - Da DataLake al software BI (Business Intelligence):
Possiamo vederlo come un uso simile a quello che abbiamo visto con DataWarehouses, considerando che ci sono alcune specificità nell'utilizzo di un DataLake per questo scopo. Un DataLake ti consentirà di creare visualizzazioni leggermente più esotiche (a causa della varietà di dati che contiene), tramite strumenti come Tableau, Qlikview, Google Data Studio, Microstrategy, ecc.
Come comunicano gli utenti con un DataLake?
Dati i casi d'uso e gli utenti (Data Scientist), molto spesso troveremo linguaggi di programmazione come Python, Java, R, Scala, ecc...
Per la maggior parte, questi linguaggi sono presenti nel campo della scienza dei dati da molto tempo.
Un DataLake è quindi uno strumento per la gestione dei BigData. Si basa sull'archiviazione massiccia di dati grezzi per scopi avanzati di analisi e visualizzazione, consentendo così il miglioramento di dati che in precedenza non erano stati utilizzati molto.
Per riassumere, ecco una tabella degli elementi di differenziazione stabiliti dall'inizio di questo articolo:
DataWarehouse | DataLake | |
---|---|---|
Tipo di dati | Dati strutturati, preelaborati, organizzati in tabelle con schemi definiti | Dati grezzi, archiviati in modo strutturato o non strutturato |
Utenti | Analisti di dati, analisti web | Data Scientist (a volte analisti di dati) |
Volume di dati | Piccolo largo (A seconda della necessità e del caso d'uso) | Potenzialmente molto grande (Big Data) |
Linguaggio di programmazione utilizzato | SQL o simile a SQL | Python, R, Java, Scala, tra gli altri |
Tipo di progetto | Progetti analitici e statistici, Reporting, Alerting, progetti di tipo ELT (export, transform, load), alcune analisi predittive e basate sui dati | Analisi predittiva, machine learning, zona di transito tra sorgenti dati e DWH, visualizzazione avanzata – BI, analisi data-driven |
Analisi predittiva, machine learning, zona di transito tra sorgenti dati e DWH, visualizzazione avanzata – BI, analisi data-driven
Sono queste differenze che rendono questi due concetti strumenti complementari. In molti casi, a seconda della maturità della governance e della gestione dei dati di un'azienda, possono fare affidamento su una combinazione di questi due strumenti.
Un DWH viene utilizzato principalmente per il reporting e l'analisi tradizionali, mentre un DataLake funge da fonte di dati prima di raggiungere il suo pieno potenziale quando l'azienda si avvicina alla maturità degli interessati.
Secondo me, i DataLakes sono più una risposta ai nuovi problemi di dati del 21° secolo, in particolare con l'emergere dei BigData e la crescente capacità delle aziende di raccogliere dati, che un sostituto dei DWH, come alcuni potrebbero pensare.
Entrambi hanno i loro vantaggi, svantaggi, punti di forza e di debolezza. Il modo migliore per sfruttare al meglio entrambi è comunque quello di utilizzarli entrambi insieme per poter affrontare qualsiasi evenienza e far fronte a una più ampia varietà di esigenze.
Ora che abbiamo definito chiaramente i concetti, ci concentreremo finalmente sull'uso di DataWarehouse e DataLakes per il marketing e più specificamente per la SEO (anche se in molti casi ciò che vale per il primo sarà vero per il secondo, e viceversa viceversa).
DataWarehouse e DataLake SEO
Parleremo qui di un DataWarehouse o di un DataLake (o entrambi) dove almeno parte dei dati presenti possono essere utilizzati per casi d'uso SEO.
Perché associare DataLakes e DataWarehouse a Marketing e SEO?
La SEO (e, più in generale, il marketing) ha già preso negli ultimi anni una svolta molto marcata verso i dati. Sempre più attività richiedono l'uso di diverse origini dati:
- Dati analitici (Google Analytics, AT internet, ecc.)
- Dati sulle prestazioni (Google Search Console, Analytics)
- Log data, una “fonte” di dati molto grande per alcuni siti, che richiede un'elevata frequenza di aggiornamento e una grande capacità di archiviazione.
- Dati di collegamento in rete (Majestic, Ahrefs, Babbar)
- Dati di posizionamento (SEMRush, Monitorank, ecc.)
- Scansione dei dati (OnCrawl e così via)
- A volte anche dati aziendali/di settore
A questo elenco dobbiamo aggiungere anche l'utilizzo delle API di strumenti come Search Console, Majestic, Google Analytics ad esempio, che naturalmente ci spinge verso il tipo di soluzioni descritte in precedenza in questo articolo.
È questa forte connessione tra SEO e dati che spinge sempre più analisti Web ed esperti SEO a conoscere nuovi modi per organizzare la propria pipeline di dati.
Tuttavia, i driver di questa transizione non riguardano solo il potenziale e l'interconnessione di SEO e dati. Molti casi d'uso quotidiani risuonano con i tipi di progetto sopra elencati per DWH e DL.
I casi d'uso di un SEO DataWarehouse o di un SEO DataLake.
Partirò innanzitutto dai punti dolenti comunemente riscontrati dagli Esperti SEO prima di spiegare come l'utilizzo di un DataLake o di un DataWarehouse sia una risposta da considerare quando li affronti.
Tra i principali punti dolenti, spiccano:
- La moltiplicazione dei file Excel (il foglio a fogli mobili del nostro decennio) e il relativo copia-incolla:
Per molti SEO questa è ancora la norma, ma siamo onesti, richiede tempo, è vincolante e molto favorevole all'errore umano. Per questo, un DataWarehouse è una soluzione perfetta. I DataWarehouse non solo consentono di raccogliere tutti i KPI necessari per eseguire questo o quell'audit/analisi dalle varie fonti di dati disponibili, ma consentono anche di automatizzare il trattamento necessario per ottenere il risultato atteso.
Man mano che viene costruito un DataWarehouse, vengono identificati sempre più casi d'uso e vengono risolti sempre più problemi, portando a risparmi di tempo sempre più significativi nel tempo. - Limiti di capacità (ricorda, Excel può aprire un intero file solo se non supera 1.048.576 righe. Sembra molto, ma in realtà non è così tanto nei volumi di oggi): non c'è davvero alcun caso d'uso particolare qui, perché in in generale, sia DataLakes che DataWarehouse non soffrono di questo tipo di limite. Entrambi offrono i mezzi per richiedere grandi volumi di dati per qualsiasi tipo di esigenza. Per questo caso specifico, è importante tenere presente che, a seconda delle necessità, l'uno o l'altro ti permetterà di liberarti dai limiti di capacità e, in definitiva, di affrontare queste situazioni più facilmente.
- Rispondere a un'esigenza di storicizzazione dei dati
Spoiler: uno dei casi d'uso può essere, ad esempio, salvare una cronologia dei dati da Google Search Console in un SEO DataWarehouse, piuttosto che copiare e paginare i suoi dati in un Fogli Google ogni settimana per mantenere una dashboard di Data Studio.In secondo me, abbiamo qui uno dei casi d'uso più comuni tra gli esperti SEO, sia nelle agenzie che all'interno: la storicizzazione dei dati. In effetti, molti analisti SEO esaminano i dati storici e ne traggono conclusioni.
L'esempio che potrebbe esserti venuto in mente direttamente è il caso di Google Search Console. Fornisce accesso solo a 16 mesi di cronologia oggi (anche tramite API). E se un arretrato manuale rimane possibile tramite esportazioni da incollare in Fogli Google ogni settimana (o altri metodi oscuri), è una notevole perdita di tempo oltre ad essere doloroso e noioso.
Questa è una buona cosa perché è un problema relativamente semplice da affrontare con un DataWarehouse. Tutto quello che devi fare è impostare una connessione automatica all'API di Google Search Console, definire le varie possibili pre-elaborazioni e combinazioni di dati necessarie per ottenere dati con un reale valore aggiunto e, infine, automatizzare le chiamate API. - Il desiderio di approfondire le analisi, di unire o "analizzare in modo incrociato" dati di scansione, dati sull'audience, registri, ecc. in modo industrializzato.
Perché un piccolo vantaggio competitivo non guasta mai. Le descrizioni che abbiamo dato di un DataWarehouse e di un DataLake qui parlano da sole. Uno degli obiettivi primari di entrambi gli strumenti è quello di aprire nuove possibilità di analisi, attraverso la raccolta di dati e l'analisi incrociata e/o l'apprendimento automatico.
Per citare solo un esempio molto rappresentativo; l'uso di algoritmi di apprendimento automatico come Random Forest o XG-Boost per fare previsioni di ranking su Google.
Molto semplicemente, l'idea è quella di addestrare un algoritmo su un gran numero di SERP (pagine dei risultati) di Google e tutte le metriche SEO raccolte per queste SERP al fine di determinare, sulla base di quelle stesse metriche, il potenziale di ranking di un determinato URL (e quindi, ancor più in particolare, per determinare le metriche più importanti da classificare in un particolare settore/tema).
→ Troverai la metodologia completa nell'articolo di Vincent Terrasi, Product Director di Oncrawl, “Successfully predicting Google rankings at the cutting edge of data science” , 2018. - La volontà di automatizzare il più possibile la reportistica, in modo da concentrarsi su attività ad alto valore aggiunto. Anche questo rientra letteralmente nei classici casi d'uso di un DataWarehouse. Offre la possibilità di automatizzare l'intero recupero ed elaborazione delle varie fonti di dati e affronta perfettamente questo punto dolente. Una volta configurata, una tabella verrà automaticamente inserita nel DWH e potrà essere utilizzata come connessione al software BI per dashboarding, sia per monitoraggio, avviso, ecc. Naturalmente, l'automazione non si limita alla sola rendicontazione dei progetti. Sia un DWH che un DL possono essere utilizzati per molte ottimizzazioni SEO automatizzate. Ad esempio, aggiornamenti dinamici ai blocchi di link interni sul ranking, sul crawl budget, sull'audience SEO, ecc. (tutti i dati contenuti nel DWH).
- Il desiderio di porre fine una volta per tutte ai problemi di sicurezza (sappiamo chi ha fatto cosa e dove trovarli) ed evitare di dedicare tempo alla manutenzione. Concludiamo qui con un aspetto più orientato al processo rispetto a un caso d'uso, in senso stretto.
Sia DataLakes che DataWarehouse implicano l'implementazione di processi particolari che possono essere presentati nel modo seguente semplificato:- Il punto di partenza è un'osservazione che si scompone in una dichiarazione dei bisogni (team aziendale / SEO – Data Analyst).
- Quindi, questo viene trasformato in una specifica più tecnica che consentirà al team che gestisce lo strumento di capire cosa deve essere fatto e come deve essere fatto.
- Questo stesso team di amministrazione esegue la richiesta.
- Il team aziendale e gli analisti di dati producono un caso d'uso procedurale per il lavoro svolto.
- È in corso un processo in cui le due estremità della catena (team aziendale e team amministrativo di DataWarehouse o DataLake) si assicurano che nulla cambi in termini di input e output.
Questo è particolarmente vero per un DWH, che rifiuterà tutti i dati che non fanno parte della struttura (lo schema predefinito).
Ancora una volta, questo è un elenco non esaustivo di punti deboli e possibili casi d'uso per DataWarehouse – DataLake SEO. I limiti si incontrano più attraverso la mancanza di fantasia di chi li usa che negli strumenti stessi.
Scegliere un DataWarehouse o un DataLake per i tuoi usi SEO
Per concludere, contrariamente a quanto spesso si sente o si legge, DataWarehouse e DataLakes sono strutture separate per l'archiviazione e la raccolta dei dati e non sono incompatibili. Non c'è bisogno di scegliere l'uno rispetto all'altro, anzi. Entrambi hanno casi d'uso diversi e ci sono anche alcune adesioni.
Il caso della SEO è un esempio eloquente e rafforza la necessità di DataWarehouse e DataLakes in generale. I dati sono onnipresenti nella SEO: dobbiamo manipolare enormi quantità di dati da diverse fonti. Quindi non sorprende che si parli di DataWarehouse e DataLakes in questo contesto. Possiamo immaginare molti casi d'uso di DataWarehouse o DataLakes in SEO, sia per scopi di automazione, per eseguire analisi “aumentate” attraverso i dati, o semplicemente per risolvere problemi ricorrenti (punti deboli).