DataLakes ve DataWarehouses: SEO'da nasıl kullanılırlar?

Yayınlanan: 2021-02-16

DataWarehouses ve DataLakes kavramları uzun zaman önce Veri Analistlerinin ve Veri Bilimcilerinin günlük dilinin bir parçası haline gelse de, bunları diğer sektörlerde yalnızca son birkaç yıldır duyuyoruz.
Örneğin, Web Analistleri ve SEO Uzmanları, işlerinin doğası ve yaptıkları ile veri manipülasyonu arasındaki güçlü bağlantı nedeniyle bu kavramlara ciddi bir şekilde bakmaya başlıyor. Pek çok yeni makale, bir SEO DataLake veya bir SEO DataWarehouse uygulamanın ilgisinden, iki terimi birbirinin yerine geçebilir ve ikisi arasında bir ayrım yapmadan ele almaktan bahseder.

Bu yazıda, SEO ve web analitiğindeki amaçlarını ve kullanım durumlarını anlamak için DataLakes ve DataWarehouses arasındaki farkları belirlemede size rehberlik edeceğiz.

DataWarehouse: veriler için yapılandırılmış depo

“DataWarehouse” teriminin ilk kullanımı, Paul Murphy ve Barry Delvin'in bir iş ve bilgi sistemleri için mimari olan bir makalede 1988'e dayanmaktadır. Bu makale, stratejik karar verme için yararlı olan tüm iş verilerini bir araya getiren, erişimi kolay, ilişkisel bir veritabanı ortamı olarak kavramın ilk tanımını veriyor.

Bir DataWarehouse ne içerir?

DataWarehouse, şirket için stratejik karar vermede faydalı olan iş verilerini tek bir yerde toplamak için kullanılır. Müşteri verilerinden envanter bilgilerine, ticari bir web sitesindeki dönüşümlere veya organik ziyaretlere (örneğin Google gibi bir arama motorundan) kadar her şeyi kapsayabilecek iş verilerinden bahsediyoruz.

Bir DataWarehouse'a gönderilen verilerin, operasyonel veritabanlarının yükünü boşaltmak için kullanılan yapılandırılmış, önceden işlenmiş veriler olduğu ve sonuçta bu operasyonel veritabanlarının sorgulama amacıyla mümkün olduğunca az talep edilmesine izin verdiği genel olarak kabul edilir.
Bir DataWarehouse'un ve onu yönetenlerin temel amacı, çeşitli kaynakların birbirleriyle iletişim kurabilmesi için standart hale getirmek için çeşitli, heterojen kaynaklardan (hem dahili hem de harici) verileri derlemektir. Nihai hedef, bu verileri analizler, raporlama, karar verme desteği vb. için kullanmaktır.

Bir DataWarehouse'un günlük kullanıcıları kimlerdir?

DataWarehouse'un doğası ve içerdiği verilerin formatı ve türü nedeniyle, Veri ve Web Analistleri için ideal bir oyun alanıdır.
Veri Analistleri, DataWarehouse yöneticisi (veya yönetim ekibi) ile birlikte çalışır. İş ihtiyaçlarını ve kullanım durumlarını tanımlarlar. Veri kaynaklarını ve yukarı akıştaki verileri işlemek için gereken eylemleri tanımlarlar. Bu veriler daha sonra zincirin sonundaki Veri Analistleri tarafından kullanılacaktır.

Kullanıcılar bir DataWarehouse ile nasıl iletişim kurar?

Veri kaynakları belirlendikten ve Veri Ambarı'nda işlenen, alınan ve bağlanan veriler belirlendikten sonra, Veri Analisti bu verileri analizlerde ve yeni veri kombinasyonları oluşturmak için kullanabilir. Bu süreç, raporlama panolarını, uyarı panolarını vb. korumak için kullanılabilir.

Bir DataWarehouse'da sorgulama için en yaygın kullanılan programlama dili SQL'dir (veya SQL benzeri diller). SQL, Veri Analistlerinin iş ihtiyaçlarını karşılamak için verileri işlemesine ve işlemesine olanak tanır: izleme, stratejik karar verme vb.

DataWarehouse'lar hangi kullanım durumları ve proje türlerine hizmet eder?

Bir DataWarehouse kullanımını içeren kullanım durumlarının kapsamlı bir listesini hazırlamak imkansızdır. Ancak, bir Veri Analistinin üzerinde çalışabileceği birkaç proje örneği aşağıda verilmiştir:

Bir DataWarehouse'un İyileştirilmesi:
Bu tür bir projeyle genellikle bir DataWarehouse kurulurken ve aynı zamanda yeni bir ihtiyaç veya iş kullanım senaryosu belirlendiğinde karşılaşılır.
Burada bir DWH'ye yeni veri ekleme sorunu söz konusudur (yine, bu dahili veya harici veri olabilir).
Bu durumda genellikle bir ETL (Çıkarma-Dönüşüm-Yükleme) sürecinden bahsederiz:

  • Çıkarma:
    Daha sonraki işlemler için ihtiyaç duyulan çeşitli kaynaklardan verilerin belirlenmesi ve toplanmasından oluşan ilk adım.
  • Dönüşüm:
    Bu ikinci adım çok önemlidir, çünkü ayarlama yapmadan, standardizasyon olmadan yeni verileri kullanmak ve DWH'de halihazırda mevcut olanlarla iletişim kurmalarını sağlamak genellikle imkansızdır.
    Bu nedenle, DWH tarafından biçimlendirme ve tablo şeması açısından dayatılan katılıkla bazen karmaşık olabilen gerekli bir standardizasyon aşamasıdır.
  • Yükleniyor:
    DWH'de işlenen (ve dolayısıyla yapılandırılmış) verilerin alınma aşaması.

İstatistiksel analizlerin gerçekleştirilmesi:
Bu, DWH'lerin çok sık kullanımıdır. Amaç, veriler aracılığıyla X veya Y'yi kanıtlamak, mevcut tarihsel verilere dayalı istatistikler üretmek veya bir bulguyu açıklamak için nedensel bağlantılar kurmak vb. olabilir.
Raporlama ve uyarı:
Bu, bir kez daha, çok sık kullanılan bir durumdur. Aslında, bir DWH'deki veriler yüksek düzeyde yapılandırılmış ve biçimlendirilmiş (sabit ve önceden tanımlanmış bir şemayı paylaşıyor) olduğundan, bunların tümü verileri raporlama veya uyarı panolarına göndermek için uygundur.

Bu, operasyon ekiplerini ve sonuçların, satışların vb. sağlığını mümkün olan en basit ve en hızlı şekilde izleyebilmesi gereken üst yönetimden gelen yinelenen bir taleptir.

Bunların hepsini özetlersek, aşağı yukarı 2 tür projemiz var: veri toplama ve entegrasyon projeleri (bir tür veri depolama ve tarihlendirme ile de karşılaştırılabilir) ve veri analizi ve değerlendirme projeleri (izleme/gösterge tablosu ve uyarı yoluyla) ).

DWH kavramı, uzun süredir verilerle çalışanların günlük dilinde mevcuttur. Nasıl çalıştığı ve sayısız kullanım durumu uzun süredir onaylanmıştır ve veri yönetimi sorunlarının söz konusu olduğu birçok farklı olgunluktaki şirkette DWH'ler bulunabilir.

Bu, çok daha genç ve çok daha az yaygın olan DataLakes kavramı için daha az geçerlidir.

Tarama Verileri³

Ek veri kümelerine sorunsuz bağlantılarla analizinizi genişletin. CRM, izleme çözümü veya başka herhangi bir kaynaktan gelen geri bağlantılar, SEO trafiği, sıralamalar ve özel veri kümeleri hakkındaki verilere dayalı olarak SEO stratejinizi analiz edin.
Daha fazla bilgi edin

DataLake: mega veri gölü (BigData)

Bu kavramın kökeni, onu büyük hacimli verileri depolamak ve kullanmak için bir çözüm olarak tanımlayan Penthao'nun CTO'su James Dixon'a atfedilir. hemen aktivasyona doğru.
DL, BigData'nın ortaya çıkmasıyla daha da önemli hale gelen, bugün toplayabildiğimiz tüm bu veri yığını ile ne yapacağımız ve bundan nasıl yararlanacağımız konusundaki boşluğu doldurmaya çalışıyor.

DataLake ne içerir?

Hem konseptinin “göl” adı için bir açıklama hem de DWH ile bir farklılaşma olarak hizmet eden, çok çağrıştırıcı bir karşılaştırma kullanan James Dixon'dan alıntı yaparak başlayacağım:

"Datamart'ı şişelenmiş su deposu olarak düşünüyorsanız - temizlenmiş, paketlenmiş ve kolay tüketim için yapılandırılmış - veri gölü, daha doğal bir durumda büyük bir su kütlesidir. Gölü doldurmak için bir kaynaktan gelen veri gölünün içeriği ve gölün çeşitli kullanıcıları incelemeye, dalışa veya numune almaya gelebilir.

Bu alıntı, kesin, sabit kalıplara sahip tablolarda yapılandırılmış ve organize edilmiş bir DWH'de bulunan veri türü ile önceden işlenmeden, ham olan bir DataLake'te bulunan veri türü arasındaki farkı mükemmel bir şekilde göstermektedir. Keşif amaçlı olsun veya olmasın, gerektiğinden numuneler.

Bir DWH'nin yapılandırılmış verileri barındırması kısıtlandığında, DataLake her türlü ham veriyi (yapılandırılmış veya yapılandırılmamış) depolamak için yapılır. Tamara Dull (Amazon Web Service) ve Anne Buff (Microsoft SAS) arasındaki bir tartışma, DataLake'in içeriği hakkında bize biraz daha somut bir vizyon veriyor:

“Veri gölü, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriler dahil olmak üzere büyük miktarda ham veriyi kendi yerel formatında tutan bir depolama havuzudur. Veri yapısı ve gereksinimleri, veriye ihtiyaç duyulana kadar tanımlanmaz.”

DataLakes'in günlük kullanıcıları kimlerdir?

Bir Veri Analistinin bir DHW'de bulunan yapılandırılmış verilerle çalışmak için mükemmel bir şekilde uygun olduğu durumlarda, ham veriler bunun yerine genellikle bu tür verileri işlemek için daha donanımlı olan Veri Bilimcilerinin uzmanlığıdır.
Veri profilindeki ve ana kullanıcıdaki bu değişiklik, farklı programlama dilleri ve kullanım durumlarıyla da sonuçlanır.

DataLakes hangi kullanım senaryolarına ve proje türlerine hizmet eder?

Yapılandırılmamış doğası ve bir DataLake'in içerebileceği önemli miktarda veri nedeniyle, kullanım durumları DWH çerçevesinde daha önce bulunanlardan çok farklı olabilir, örneğin:

  • BigData için katma değer yaratmak için makine öğrenimi algoritmalarının uygulanması:
    Burada genellikle her türlü veriden yararlanan makine öğrenimi algoritmalarına dayanan tahmine dayalı analiz hakkında konuşuyoruz.
    Daha somut bir örnek vermek gerekirse, finans sektöründeki (bankacılık ve sigortacılık) bir şirketin bir X finansal işleminin hileli olma olasılığını belirlemek istediğini düşünelim. Bu, DataLake'te bulunan astronomik miktarda veri (tutar, tarih, sıklık, hesap sahibi tarafından gerçekleştirilen işlemlerin olağan profili vb.) üzerinde eğitim alacak makine öğrenimi algoritmaları oluşturabilen Veri Bilimcilerini gerektirebilir. Amaç, potansiyel olarak dolandırıcılık amaçlı işlemleri belirlemek için kullanılacak ve böylece şirketin bunları tespit etmede tepki süresini azaltmasına ve nihayetinde kendileri ve müşterileri için büyük kayıplardan kaçınmasına olanak sağlayacak bir tahmin çalışması yürütmektir.
    Bu, makine öğreniminin ilgisini ve katma değerini göstermek için düzenli olarak kullanılan basit bir örnektir, ancak hayal edebileceğiniz gibi başkaları da vardır.
  • DataWarehouse için veri kaynağı olarak DataLakes:
    Çok basit bir şekilde, bir DataLake, çeşitli dahili ve harici veri kaynaklarınız ile DWH'niz arasında bir geçiş bölgesi görevi görebilir. Bir DataLake'in ilkesi, ML aracılığıyla tahmine dayalı çalışmalar yapmak veya analiz için örnek olarak çıkarmak için yapılandırılmış veya yapılandırılmamış her türlü veriyi merkezileştirmektir. Bu nedenle DWH, bu ikinci proje kategorisi için çok uygun görünmektedir ve potansiyel bir kaynak olarak bir DataLake'ten yararlanır (DataLake verilerinin, gerekirse ön işleme yoluyla yapılandırılmış bir şekilde içe aktarılması şartıyla).
  • DataLake'ten BI (İş Zekası) yazılımına:
    Bunu DataWarehouses ile gördüğümüze benzer bir kullanım olarak görebiliriz, bu amaçla bir DataLake kullanmanın belirli özellikleri olduğunu düşündük. Bir DataLake, Tableau, Qlikview, Google Data Studio, Microstrategy vb. araçlar aracılığıyla (içerdiği verilerin çeşitliliği nedeniyle) biraz daha egzotik görselleştirmeler yapmanıza olanak tanır.

Kullanıcılar bir DataLake ile nasıl iletişim kurar?

Kullanım durumları ve kullanıcılar (Veri Bilimcileri) göz önüne alındığında, Python, Java, R, Scala, vb. Gibi programlama dillerini sıklıkla bulacağız…
Çoğunlukla, bu diller veri bilimi alanında uzun süredir mevcuttur.

Bu nedenle DataLake, BigData'yı yönetmek için bir araçtır. Gelişmiş analiz ve görselleştirme amaçları için büyük miktarda ham veri depolamasına dayanır, böylece daha önce fazla kullanılmayan verilerin geliştirilmesine olanak tanır.

Özetlemek gerekirse, bu makalenin başından beri oluşturulan farklılaştırıcı unsurların bir tablosu:

Veri deposu Veri Gölü
veri türü Yapılandırılmış, önceden işlenmiş veriler, tanımlanmış şemalarla tablolar halinde düzenlenmiştir Yapılandırılmış veya yapılandırılmamış bir şekilde depolanan ham veriler
Kullanıcılar Veri Analistleri, Web Analistleri Veri Bilimcileri
(bazen Veri Analistleri)
veri hacmi Küçük büyük
(İhtiyaca ve kullanım durumuna bağlı olarak)
Potansiyel olarak çok büyük
(Büyük veri)
Kullanılan programlama dili SQL veya SQL benzeri Python, R, Java, Scala, diğerleri arasında
proje türü Analitik ve istatistiksel projeler, Raporlama, Uyarı, ELT (dışa aktarma, dönüştürme, yükleme) tipi projeler, bazı tahmine dayalı ve veriye dayalı analizler Tahmine dayalı analiz, makine öğrenimi, veri kaynakları ve DWH arasındaki geçiş bölgesi, gelişmiş görselleştirme – BI, veriye dayalı analiz

Tahmine dayalı analiz, makine öğrenimi, veri kaynakları ve DWH arasındaki geçiş bölgesi, gelişmiş görselleştirme – BI, veriye dayalı analiz

Bu iki kavramı tamamlayıcı araçlar yapan bu farklılıklardır. Çoğu durumda, bir şirketin yönetişim ve veri yönetiminin olgunluğuna bağlı olarak, bu iki aracın bir kombinasyonuna güvenebilirler.
Bir DWH esas olarak geleneksel raporlama ve analiz için kullanılırken, DataLake, şirket veri konularında olgunluğa yaklaşırken tam potansiyeline ulaşmadan önce bir veri kaynağı olarak hizmet eder.

Bana göre DataLakes, bazılarının düşündüğü gibi DWH'lerin yerini almaktan çok, özellikle BigData'nın ortaya çıkması ve şirketlerin veri toplama kapasitesinin artmasıyla birlikte 21. yüzyılın yeni veri sorunlarına bir yanıttır.
Her ikisinin de avantajları, dezavantajları, güçlü ve zayıf yönleri vardır. Her ikisinden de en iyi şekilde yararlanmanın en iyi yolu, olası bir durumla başa çıkabilmek ve daha çeşitli ihtiyaçlara cevap verebilmek için ikisini birlikte kullanmaktır.

Artık kavramları açıkça tanımladığımıza göre, nihayet pazarlama için ve daha özel olarak SEO için DataWarehouses ve DataLakes kullanımına odaklanacağız (birçok durumda, birincisi için doğru olan ikincisi için doğru olacaktır ve yardımcısı için doğru olacaktır). tersi).

DataWarehouse ve DataLake SEO

Burada, mevcut verilerin en azından bir kısmının SEO kullanım durumları için kullanılabileceği bir DataWarehouse veya DataLake (veya her ikisi) hakkında konuşacağız.

DataLakes ve DataWarehouse'ları neden Pazarlama ve SEO ile ilişkilendirmelisiniz?

SEO (ve daha genel olarak pazarlama), son yıllarda verilere doğru çok belirgin bir dönüş yaptı. Gittikçe daha fazla görev, çeşitli veri kaynaklarının kullanılmasını gerektiriyor:

  • Analitik veriler (Google Analytics, AT internet vb.)
  • Performans verileri (Google Arama Konsolu, Analytics)
  • Günlük verileri, bazı siteler için yüksek bir güncelleme sıklığı ve büyük bir depolama kapasitesi gerektiren çok büyük bir veri “kaynağı”.
  • Net bağlantı verileri (Majestic, Ahrefs, Babbar)
  • Konumlandırma verileri (SEMRush, Monitorank, vb.)
  • Tarama verileri (OnCrawl, vb.)
  • Bazen iş/endüstri verileri de

Bu listeye, örneğin Search Console, Majestic, Google Analytics gibi araçların API'lerinin kullanımını da eklemeliyiz, bu da bizi doğal olarak bu makalenin başlarında açıklanan türde çözümlere doğru iter.
Gittikçe daha fazla Web Analistini ve SEO Uzmanını veri hatlarını düzenlemenin yeni yollarını öğrenmeye iten, SEO ve Veri arasındaki bu güçlü bağlantıdır.

Ancak, bu geçişin itici güçleri yalnızca SEO ve Verinin potansiyeli ve birbirine bağlılığı ile ilgili değildir. Birçok günlük kullanım durumu, DWH'ler ve DL'ler için yukarıda listelenen proje türleriyle rezonansa girer.

SEO DataWarehouse veya SEO DataLake kullanım durumları.

DataLake veya DataWarehouse kullanımının, bunlara değinirken nasıl dikkate alınması gereken bir cevap olduğunu açıklamadan önce, SEO Uzmanlarının sıkça karşılaştığı sorunlu noktalardan başlayacağım.
Ana ağrı noktaları arasında aşağıdakiler öne çıkıyor:

  • Excel dosyalarının çarpımı (on yılımızın gevşek yapraklı kağıdı) ve ilgili kopyala-yapıştır:
    Birçok SEO için bu hala bir normdur, ancak dürüst olalım, hem zaman alıcı, hem kısıtlayıcı hem de insan hatasına çok elverişlidir. Bunun için bir DataWarehouse mükemmel bir çözümdür. DataWarehouse'lar, yalnızca bu veya bu denetimleri/analizleri gerçekleştirmek için gereken tüm KPI'ların mevcut çeşitli veri kaynaklarından toplanmasına izin vermekle kalmaz, aynı zamanda beklenen sonucu elde etmek için gerekli olan işlemlerin otomatikleştirilmesine de izin verir.
    Bir DataWarehouse oluşturuldukça, giderek daha fazla kullanım durumu belirlenir ve daha fazla sorun çözülür, bu da zaman içinde giderek daha önemli ölçüde zaman tasarrufu sağlar.
  • Kapasite sınırları (hatırlatmak gerekirse, Excel yalnızca 1.048.576 satırı geçmiyorsa bir dosyanın tamamını açabilir. Bu çok gibi görünüyor, ancak bugünün ciltlerinde aslında o kadar fazla değil): Burada gerçekten belirli bir kullanım durumu yok, çünkü Genel olarak, hem DataLakes hem de DataWarehouse'lar bu tür bir sınırdan muzdarip değildir. Her ikisi de her türlü ihtiyaç için büyük hacimli veri talep etme araçlarını sunar. Bu özel durum için, ihtiyaca bağlı olarak, birinin veya diğerinin, kendinizi kapasite sınırlarından kurtarmanıza ve nihayetinde bu durumları daha kolay ele almanıza izin vereceğini akılda tutmak önemlidir.
  • Veri geçmişleştirme ihtiyacına yanıt verin
    Spoiler: Kullanım örneklerinden biri, örneğin, bir Data Studio panosunu korumak için verilerini her hafta bir Google E-Tablosunda kopyalamak ve sayfalamak yerine, Google Arama Konsolundan gelen verilerin geçmişini bir SEO Veri Ambarı'na kaydetmek olabilir. Bence burada, ister ajanslarda ister kurum içinde olsun, SEO Uzmanları arasında en yaygın kullanım örneklerinden birine sahibiz: veri geçmişi. Gerçekten de, birçok SEO Analisti, geçmiş verilere bakar ve bunlardan sonuçlar çıkarır.
    Direkt aklınıza gelmiş olabilecek örnek, Google Search Console olayıdır. Bugün yalnızca 16 aylık geçmişe erişim sağlar (API aracılığıyla bile). Ve her hafta Google E-Tablolar'a yapıştırılacak dışa aktarma yoluyla (veya diğer belirsiz yöntemlerle) manuel bir biriktirme listesi mümkün olmaya devam ederse, acı verici ve sıkıcı olmasının yanı sıra önemli bir zaman kaybıdır.
    Bu iyi bir şey çünkü bir DataWarehouse ile ele alınması nispeten basit bir problem. Tek yapmanız gereken Google Search Console API'sine otomatik bir bağlantı kurmak, gerçek katma değerli veriler elde etmek için gereken çeşitli olası ön işleme ve veri kombinasyonlarını tanımlamak ve son olarak API çağrılarını otomatikleştirmek.
  • Analizleri daha ileri götürme, tarama verilerini, izleyici verilerini, günlükleri vb. endüstrileşmiş bir şekilde birleştirme veya "çapraz analiz etme" arzusu.
    Çünkü küçük bir rekabet avantajı asla zarar vermez. Bir DataWarehouse ve bir DataLake hakkında verdiğimiz açıklamalar burada kendileri için konuşur. Her iki aracın da temel amaçlarından biri, veri toplama ve çapraz analiz ve/veya makine öğrenimi yoluyla analiz için yeni olanaklar yaratmaktır.
    Çok temsili bir örnek vermek gerekirse; Google'da sıralama tahminleri yapmak için Random Forest veya XG-Boost gibi makine öğrenimi algoritmalarının kullanılması.
    Çok basit bir şekilde, fikir, aynı metriklere dayalı olarak, belirli bir URL'nin (ve bu nedenle, daha da özel olarak, belirli bir sektörde/temada sıralanacak en önemli metrikleri belirlemek için).
    → Tam metodolojiyi Oncrawl Ürün Direktörü Vincent Terrasi'nin “Veri biliminin en ileri noktasında Google sıralamalarını başarıyla tahmin etme” , 2018 başlıklı makalesinde bulacaksınız.
  • Yüksek katma değerli görevlere odaklanmak için raporlamayı mümkün olduğunca otomatikleştirme arzusu. Yine, bu tam anlamıyla bir DataWarehouse'un klasik kullanım durumlarına girer. Çeşitli veri kaynaklarının tüm kurtarma ve işlenmesini otomatikleştirme imkanı sunar ve bu sorunlu noktayı mükemmel bir şekilde giderir. Kurulduktan sonra, bir tablo otomatik olarak DWH'ye beslenir ve izleme, uyarı vb. için pano oluşturma için BI yazılımına bağlantı olarak kullanılabilir. Tabii ki, otomasyon yalnızca projeleri raporlamakla kalmaz. Birçok otomatik SEO optimizasyonu için hem DWH hem de DL kullanılabilir. Örneğin, sıralamada, tarama bütçesinde, SEO hedef kitlesinde vb. dahili bağlantı bloklarında dinamik güncellemeler (DWH'de bulunan tüm veriler).
  • Güvenlik endişelerine (kimin ne yaptığını ve nerede bulacağımızı biliyoruz) bir kez ve tamamen son verme ve bakım için zaman harcamaktan kaçınma arzusu. Burada, kesin olarak konuşursak, bir kullanım durumundan daha süreç odaklı bir bakış açısıyla bitiriyoruz.
    Hem DataLakes hem de DataWarehouses, aşağıdaki basitleştirilmiş şekilde sunulabilen belirli süreçlerin uygulanmasını ifade eder:

    • Başlangıç ​​noktası, bir ihtiyaç beyanına bölünmüş bir gözlemdir (iş ekibi / SEO – Veri Analisti).
    • Daha sonra bu, aracı yöneten ekibin ne yapılması ve nasıl yapılması gerektiğini anlamasını sağlayacak daha teknik bir şartnameye dönüştürülür.
    • Bu aynı yönetim ekibi isteği yerine getirir.
    • İş ekibi ve Veri Analistleri, yürütülen çalışma için prosedürel bir kullanım senaryosu üretir.
    • Zincirin iki ucunun (DataWarehouse veya DataLake'in iş ekibi ve yönetim ekibi) girdi ve çıktı açısından hiçbir şeyin değişmemesini sağladığı devam eden bir süreç vardır.
      Bu, özellikle yapının (önceden tanımlanmış şema) parçası olmayan herhangi bir veriyi reddedecek olan bir DWH için geçerlidir.

Yine, bu, DataWarehouse – DataLake SEO için sorunlu noktaların ve olası kullanım durumlarının kapsamlı olmayan bir listesidir. Sınırlarla, araçların kendisinden çok, onları kullananların hayal gücü eksikliğiyle karşılaşılır.

SEO kullanımlarınız için bir DataWarehouse veya DataLake seçme

Sonuç olarak, sıklıkla duyabileceğiniz veya okuyabileceğinizin aksine DataWarehouses ve DataLakes, veri depolama ve toplama için ayrı yapılardır ve uyumsuz değildir. Birini diğerine tercih etmeye gerek yok, tam tersi. Her ikisinin de farklı kullanım durumları vardır ve hatta bazı yapışmalar vardır.

SEO durumu çarpıcı bir örnektir ve genel olarak DataWarehouses ve DataLakes ihtiyacını güçlendirir. Veriler SEO'da her yerde bulunur: Farklı kaynaklardan gelen büyük miktarda veriyi manipüle etmemiz gerekir. Dolayısıyla bu bağlamda DataWarehouses ve DataLakes hakkında konuşmamız şaşırtıcı değil. SEO'da DataWarehouses veya DataLakes'in otomasyon amaçlı, veriler aracılığıyla "artırılmış" analiz yapmak veya sadece tekrar eden sorunları (acı noktaları) çözmek için pek çok kullanım durumu hayal edebiliriz.