Veri Kazıma Nedir ve Nasıl Kullanabilirsiniz?
Yayınlanan: 2017-09-13Veri Kazıma Nedir?
Web kazıma olarak da bilinen veri kazıma, bilgileri bir web sitesinden bilgisayarınızda kayıtlı bir elektronik tabloya veya yerel dosyaya aktarma işlemidir. Web'den veri almanın ve bazı durumlarda bu verileri başka bir web sitesine yönlendirmenin en etkili yollarından biridir. Veri kazımanın popüler kullanımları şunları içerir:
- Web içeriği/iş zekası için araştırma
- Seyahat rezervasyonu yapan siteler/fiyat karşılaştırma siteleri için fiyatlandırma
- Halka açık veri kaynaklarını tarayarak satış fırsatları bulma/pazar araştırması yürütme (örn. Yell ve Twitter)
- Bir e-ticaret sitesinden başka bir çevrimiçi satıcıya ürün verilerini gönderme (ör. Google Alışveriş)
Ve bu liste sadece yüzeyi çiziyor. Veri kazımanın çok sayıda uygulaması vardır - verilerin bir yerden diğerine taşınması gereken hemen hemen her durumda yararlıdır.
Veri kazımanın temelleri konusunda uzmanlaşmak nispeten kolaydır. Excel kullanarak basit bir veri kazıma eyleminin nasıl ayarlanacağını inceleyelim.
Microsoft Excel'de dinamik web sorgularıyla Veri Kazıma
Microsoft Excel'de dinamik bir web sorgusu ayarlamak, harici bir web sitesinden (veya birden çok web sitesinden) bir elektronik tabloya veri akışı ayarlamanıza olanak tanıyan kolay, çok yönlü bir veri kazıma yöntemidir.
Web'den Excel'e nasıl veri aktarılacağını öğrenmek için bu mükemmel eğitim videosunu izleyin veya isterseniz aşağıdaki yazılı talimatları kullanın:
- Excel'de yeni bir çalışma kitabı açın
- Verileri içe aktarmak istediğiniz hücreye tıklayın
- 'Veri' sekmesini tıklayın
- 'Harici verileri al'ı tıklayın
- 'Web'den' sembolüne tıklayın
- Web sayfasının sol üst köşesinde ve belirli içeriğin yanında görünen küçük sarı oklara dikkat edin.
- Adres çubuğuna veri aktarmak istediğiniz web sayfasının URL'sini yapıştırın (verilerin tablolarda gösterildiği bir site seçmenizi öneririz)
- 'Git'i tıklayın
- İçe aktarmak istediğiniz verilerin yanındaki sarı oka tıklayın
- 'İçe Aktar'ı tıklayın
- 'Verileri içe aktar' iletişim kutusu açılır
- 'Tamam'ı tıklayın (veya isterseniz hücre seçimini değiştirin)
Bu adımları izlediyseniz, artık e-tablonuzda belirtilen web sitesindeki verileri görebilmeniz gerekir.
Dinamik web sorgularının en güzel yanı, verileri bir kereye mahsus bir işlem olarak elektronik tablonuza içe aktarmamaları, aynı zamanda bunları beslemeleridir, yani elektronik tablo, verilerin en son sürümüyle düzenli olarak güncellenir. kaynak web sitesi. Bu yüzden onlara dinamik diyoruz.
Dinamik web sorgunuzun içe aktardığı verileri ne kadar düzenli olarak güncelleyeceğini yapılandırmak için, 'Veri'ye, ardından 'Özellikler'e gidin, ardından bir frekans seçin (“X dakikada bir yenile”).
Araçlarla otomatik veri kazıma
Excel'de dinamik web sorgularını kullanmaya alışmak, veri kazımayı anlamanın yararlı bir yoludur. Ancak, işinizde düzenli olarak veri kazımayı kullanmayı düşünüyorsanız, özel bir veri kazıma aracını daha etkili bulabilirsiniz.
İşte piyasadaki en popüler veri kazıma araçlarından birkaçı hakkındaki düşüncelerimiz:
Veri Kazıyıcı (Chrome eklentisi)
Data Scraper, doğrudan Chrome tarayıcı uzantılarınıza yerleşerek, tarayıcınızda yüklü olan herhangi bir web sayfasından veri çıkarmak için bir dizi hazır veri kazıma "tarifi" arasından seçim yapmanıza olanak tanır.
Eklenti, bu tür siteler için çok çeşitli tarif seçenekleri içerdiğinden, bu araç özellikle Twitter ve Wikipedia gibi popüler veri kazıma kaynaklarıyla iyi çalışır.
PR fırsatları için, aracın herkese açık tariflerinden birini kullanarak bir Twitter hashtag'i olan “#jourorequest”i çıkararak Data Scraper'ı denedik. İşte geri aldığımız verilerin bir tadı:

Gördüğünüz gibi, araç, hashtag'de son zamanlarda yayınlanan her hesabın kullanıcı adının yanı sıra tweet'lerini ve URL'lerini içeren bir tablo sağladı.
Bu verilere bu biçimde sahip olmak, bir PR temsilcisi için verileri Twitter'ın tarayıcı görünümünde birkaç nedenden dolayı görmekten daha yararlı olacaktır:
- Basın bağlantılarından oluşan bir veri tabanı oluşturmaya yardımcı olmak için kullanılabilir.
- Bu listeye geri dönmeye devam edebilir ve aradığınızı kolayca bulabilirsiniz, oysa Twitter sürekli güncellenir
- Liste sıralanabilir ve düzenlenebilir
- Verilerin sahipliğini size verir - her an çevrimdışına alınabilir veya değiştirilebilir
Herkese açık tarifleri bazen biraz kaba olsa da, Data Scraper'dan etkilendik. Ücretsiz sürümü Chrome'a yüklemeyi deneyin ve verileri ayıklayarak biraz oynayın. Aracın nasıl çalıştığı ve istediğiniz verileri çıkarmanın bazı basit yolları hakkında bir fikir edinmek için sağladıkları giriş filmini izlediğinizden emin olun.
WebHarvy
WebHarvy, ücretsiz deneme sürümüne sahip bir işaretle ve tıkla veri kazıyıcıdır. En büyük satış noktası esnekliğidir - içe aktarmak istediğiniz verilere gitmek için aracın yerleşik web tarayıcısını kullanabilir ve ardından kaynak web sitesinden tam olarak ihtiyacınız olanı çıkarmak için kendi madencilik spesifikasyonlarınızı oluşturabilirsiniz.
import.io
Import.io, zor işlerin çoğunu sizin için yapan, zengin özelliklere sahip bir veri madenciliği araç takımıdır. “Ne değişti?” gibi bazı ilginç özellikleri var. Belirli web sitelerinde yapılan güncellemeleri size bildirebilen raporlar - derinlemesine rakip analizi için ideal.
Pazarlamacılar veri kazımayı nasıl kullanıyor?
Bu noktada toplamış olacağınız gibi, veri kazıma, bilginin kullanıldığı hemen hemen her yerde kullanışlı olabilir. Teknolojinin pazarlamacılar tarafından nasıl kullanıldığına dair bazı önemli örnekler:
Birbirinden farklı verileri toplama
FeedOptimise CEO'su Marcin Rosinski, veri kazımanın en büyük avantajlarından birinin, farklı verileri tek bir yerde toplamanıza yardımcı olabilmesi olduğunu söylüyor. Marcin, "Tarama, birden fazla kaynaktan yapılandırılmamış, dağınık verileri alıp tek bir yerde toplamamıza ve yapılandırılmış hale getirmemize olanak tanıyor" diyor. "Farklı varlıklar tarafından kontrol edilen birden fazla web siteniz varsa, hepsini tek bir özet akışında birleştirebilirsiniz.

"Bunun kullanım durumlarının yelpazesi sonsuzdur."
FeedOptimise, web sitelerinde bulabileceğiniz çok çeşitli veri kazıma ve veri besleme hizmetleri sunar.
Araştırmayı hızlandırmak
Veri kazımanın en basit kullanımı, verileri tek bir kaynaktan almaktır. Sizin için yararlı olabilecek çok sayıda veri içeren bir web sayfası varsa, bu bilgileri bilgisayarınıza düzenli bir biçimde almanın en kolay yolu muhtemelen veri kazıma olacaktır.
Twitter'da faydalı kişilerin bir listesini bulmayı deneyin ve verileri veri kazıma kullanarak içe aktarın. Bu size sürecin günlük işinize nasıl uyabileceğine dair bir fikir verecektir.
Üçüncü taraf sitelere bir XML beslemesi çıktısı alma
Ürün verilerini sitenizden Google Alışveriş'e ve diğer üçüncü taraf satıcılara beslemek, e-ticaret için önemli bir veri kazıma uygulamasıdır. Ürün ayrıntılarınızı güncellemek için potansiyel olarak zahmetli süreci otomatikleştirmenize olanak tanır - bu, stoğunuz sık sık değişiyorsa çok önemlidir.
Target Internet'in Pazarlama Direktörü Ciaran Rogers, "Veri kazıma, Google Alışveriş için XML özet akışınızın çıktısını alabilir" diyor. “ Ürünler stoğa girdikçe sitelerine sürekli olarak yeni SKU'lar ekleyen birkaç çevrimiçi perakendeci perakendeciyle çalıştım. E-ticaret çözümünüz uygun bir XML beslemesi vermiyorsa, sorun olabilecek en iyi ürünlerinizin reklamını yapabilmek için Google Merchant Center'ınıza bağlayabilirsiniz. Çoğu zaman en son ürünleriniz potansiyel olarak en çok satanlardır, bu nedenle yayına girer girmez reklamlarının yapılmasını istersiniz. Google Merchant Center'a beslemek üzere güncel listeler oluşturmak için veri kazımayı kullandım. Bu harika bir çözüm ve aslında, elde ettiğinizde verilerle yapabileceğiniz çok şey var. Feed'i kullanarak, günlük olarak en iyi dönüşüm sağlayan ürünleri etiketleyebilir, böylece bu bilgileri Google Adwords ile paylaşabilir ve bu ürünler için daha rekabetçi teklifler vermenizi sağlayabilirsiniz. Bir kez ayarladığınızda, hepsi oldukça otomatik. İyi bir feed'in bu şekilde kontrolünüz altında olan esnekliği harikadır ve müşterilerin sevdiği kampanyalarda çok kesin gelişmelere yol açabilir."
Google Merchant Center'da kendiniz için basit bir veri akışı oluşturabilirsiniz. İşte nasıl yapıldığı:
Google Merchant Center'a veri feed'i nasıl kurulur?
Daha önce açıklanan tekniklerden veya araçlardan birini kullanarak, sitenizde listelenen ürünlerin ayrıntılarını içe aktarmak için dinamik bir web sitesi sorgusu kullanan bir dosya oluşturun. Bu dosya düzenli aralıklarla otomatik olarak güncellenmelidir.
Ayrıntılar burada belirtildiği gibi belirtilmelidir.
- Bu dosyayı parola korumalı bir URL'ye yükleyin
- Google Merchant Center'a gidin ve giriş yapın (önce Merchant Center hesabınızın doğru şekilde kurulduğundan emin olun)
- Ürünlere Git
- artı düğmesine tıklayın
- Hedef ülkenizi girin ve bir yayın adı oluşturun
- 'Planlı getirme' seçeneğini seçin
- Erişmek için gereken kullanıcı adı ve şifre ile birlikte ürün veri dosyanızın URL'sini ekleyin
- Ürün yükleme programınıza en uygun getirme sıklığını seçin
- Kaydet'i tıklayın
- Ürün verileriniz artık Google Merchant Center'da mevcut olmalıdır. Durumunu kontrol etmek ve sorunsuz çalıştığından emin olmak için 'Teşhis' sekmesine tıkladığınızdan emin olun.
Veri kazımanın karanlık yüzü
Veri kazımanın birçok olumlu kullanımı vardır, ancak küçük bir azınlık tarafından da kötüye kullanılır.
Veri kazımanın en yaygın kötüye kullanımı, e-posta toplamadır - insanların e-posta adreslerini ortaya çıkarmak için web sitelerinden, sosyal medyadan ve dizinlerden verilerin kazınması ve daha sonra spam gönderenlere veya dolandırıcılara satılmasıdır. Bazı yargı bölgelerinde, ticari amaçlı e-posta adreslerini toplamak için veri kazıma gibi otomatik araçlar kullanmak yasa dışıdır ve neredeyse evrensel olarak kötü pazarlama uygulaması olarak kabul edilir.
Birçok web kullanıcısı, e-posta toplayıcıların e-posta adreslerini ele geçirme riskini azaltmaya yardımcı olacak teknikleri benimsemiştir, bunlara aşağıdakiler dahildir:
- Adres değiştirme: e-posta adresinizi herkese açık olarak gönderirken biçimini değiştirmek, örneğin '[email protected]' yerine 'patrick[at]gmail.com' yazmak. Bu, sosyal medyada e-posta adresinizi korumak için kolay ama biraz güvenilmez bir yaklaşımdır – bazı biçerdöverler, normal formattaki e-postaların yanı sıra çeşitli karışık kombinasyonları da arayacaktır, bu nedenle tamamen hava geçirmez değildir.
- İletişim formları: e-posta adresinizi/adreslerinizi web sitenizde yayınlamak yerine bir iletişim formu kullanmak.
- Görüntüler: E-posta adresiniz web sitenizde görüntü biçiminde sunulursa, e-posta toplamayla ilgilenen çoğu kişinin teknolojik erişiminin ötesinde olacaktır.
Veri Kazıma Geleceği
Çalışmanızda veri kazımayı kullanmayı planlasanız da kullanmasanız da, önümüzdeki birkaç yıl içinde daha da önemli hale gelmesi muhtemel olduğundan, bu konuda kendinizi eğitmeniz önerilir.
Artık piyasada, yalnızca insanların geleneksel olarak görüntü gibi yorumlayabildiği girdileri tanımada daha iyi olmaya devam etmek için makine öğrenimini kullanabilen veri kazıyan AI var.
Görüntülerden ve videolardan veri kazımadaki büyük gelişmeler, dijital pazarlamacılar için geniş kapsamlı sonuçlara sahip olacak. Görüntü kazıma daha derinlemesine hale geldikçe, çevrimiçi görüntüler hakkında onları görmeden önce çok daha fazla bilgi sahibi olabileceğiz – ve bu, metin tabanlı veri kazıma gibi, birçok şeyi daha iyi yapmamıza yardımcı olacaktır.
Sonra en büyük veri kazıyıcı var – Google. Google, bir resimden, bir kopya sayfasından çıkarabildiği kadar doğru bir şekilde çıkarımda bulunabildiğinde, tüm web arama deneyimi değişecek ve bu, dijital pazarlama perspektifinden iki katına çıkacak.
Bunun yakın gelecekte gerçekleşip gerçekleşemeyeceği konusunda herhangi bir şüpheniz varsa, Google'ın görüntü yorumlama API'si Cloud Vision'ı deneyin ve ne düşündüğünüzü bize bildirin. şimdi ücretsiz üyeliğinizi alın - kesinlikle kredi kartı gerekmez
ÜCRETSİZ ÜYELİK