Ce este data scraping și cum o poți folosi?
Publicat: 2017-09-13Ce este data scraping?
Data scraping, cunoscută și sub numele de web scraping, este procesul de importare a informațiilor de pe un site web într-o foaie de calcul sau într-un fișier local salvat pe computer. Este una dintre cele mai eficiente moduri de a obține date de pe web și, în unele cazuri, de a canaliza acele date către un alt site web. Utilizările populare ale scrapingului de date includ:
- Cercetare pentru conținut web/business intelligence
- Prețuri pentru site-urile de rezervări de călătorie/site-uri de comparare a prețurilor
- Găsirea clienților potențiali/efectuarea cercetării de piață prin accesarea cu crawlere a surselor publice de date (de exemplu, Yell și Twitter)
- Trimiterea datelor despre produse de pe un site de comerț electronic către un alt furnizor online (de exemplu, Cumpărături Google)
Și lista asta doar zgârie suprafața. Data scraping are un număr mare de aplicații – este util în aproape orice caz în care datele trebuie mutate dintr-un loc în altul.
Elementele de bază ale scrapingului datelor sunt relativ ușor de stăpânit. Să vedem cum să configurați o acțiune simplă de răzuire a datelor folosind Excel.
Scraping de date cu interogări web dinamice în Microsoft Excel
Configurarea unei interogări web dinamice în Microsoft Excel este o metodă ușoară și versatilă de colectare a datelor, care vă permite să configurați un flux de date de pe un site web extern (sau mai multe site-uri web) într-o foaie de calcul.
Urmăriți acest tutorial video excelent pentru a afla cum să importați date de pe web în Excel - sau, dacă preferați, utilizați instrucțiunile scrise de mai jos:
- Deschideți un nou registru de lucru în Excel
- Faceți clic pe celula în care doriți să importați datele
- Faceți clic pe fila „Date”.
- Faceți clic pe „Obțineți date externe”
- Faceți clic pe simbolul „De pe web”.
- Observați micile săgeți galbene care apar în partea din stânga sus a paginii web și alături de anumite conținuturi
- Lipiți adresa URL a paginii web din care doriți să importați date în bara de adrese (recomandăm să alegeți un site în care datele sunt afișate în tabele)
- Faceți clic pe „Go”
- Faceți clic pe săgeata galbenă de lângă datele pe care doriți să le importați
- Faceți clic pe „Importați”
- Apare o casetă de dialog „Importați date”.
- Faceți clic pe „OK” (sau modificați selecția celulei, dacă doriți)
Dacă ați urmat acești pași, acum ar trebui să puteți vedea datele de pe site-ul web prezentate în foaia de calcul.
Lucrul grozav al interogărilor web dinamice este că ele nu doar importă date în foaia de calcul ca o operațiune unică, ci le introduc, ceea ce înseamnă că foaia de calcul este actualizată în mod regulat cu cea mai recentă versiune a datelor, așa cum apare pe site-ul sursă. De aceea le numim dinamice.
Pentru a configura cât de regulat actualizează interogarea dvs. web dinamică datele pe care le importă, accesați „Date”, apoi „Proprietăți”, apoi selectați o frecvență („Actualizare la fiecare X minute”).
Scraping automatizat de date cu instrumente
Înțelegerea utilizării interogărilor web dinamice în Excel este o modalitate utilă de a înțelege scraping-ul datelor. Cu toate acestea, dacă intenționați să utilizați în mod regulat data scraping în munca dvs., este posibil să găsiți un instrument dedicat de data scraping mai eficient.
Iată părerile noastre despre câteva dintre cele mai populare instrumente de răzuire a datelor de pe piață:
Data Scraper (plugin Chrome)
Data Scraper se încadrează direct în extensiile browserului dvs. Chrome, permițându-vă să alegeți dintr-o gamă de „rețete” gata făcute pentru a extrage date din orice pagină web încărcată în browser.
Acest instrument funcționează deosebit de bine cu sursele populare de colectare a datelor precum Twitter și Wikipedia, deoarece pluginul include o varietate mai mare de opțiuni de rețetă pentru astfel de site-uri.
Am încercat Data Scraper prin extragerea unui hashtag Twitter, „#jourorequest”, pentru oportunități de PR, folosind una dintre rețetele publice ale instrumentului. Iată o aromă a datelor pe care le-am primit:
![Exemplu de ieșire DataMiner](/uploads/article/5445/dUf08PuNlRkJKIRg.webp)
După cum puteți vedea, instrumentul a furnizat un tabel cu numele de utilizator al fiecărui cont care a fost postat recent pe hashtag, plus tweet-ul și adresa URL a acestuia.
A avea aceste date în acest format ar fi mai util pentru un reprezentant PR decât pur și simplu să vadă datele în vizualizarea browserului Twitter din mai multe motive:
- Ar putea fi folosit pentru a ajuta la crearea unei baze de date de contacte de presă
- Puteți să vă referiți în continuare la această listă și să găsiți cu ușurință ceea ce căutați, în timp ce Twitter se actualizează continuu
- Lista poate fi sortată și editabilă
- Vă oferă dreptul de proprietate asupra datelor – care pot fi luate offline sau modificate în orice moment
Suntem impresionați de Data Scraper, chiar dacă rețetele sale publice sunt uneori ușor aspre. Încercați să instalați versiunea gratuită pe Chrome și jucați-vă cu extragerea datelor. Asigurați-vă că urmăriți filmul introductiv pe care îl oferă pentru a vă face o idee despre cum funcționează instrumentul și despre câteva modalități simple de a extrage datele pe care le doriți.
WebHarvy
WebHarvy este un răzuitor de date punct-and-click cu o versiune de probă gratuită. Cel mai mare punct de vânzare este flexibilitatea sa - puteți utiliza browserul web încorporat al instrumentului pentru a naviga la datele pe care doriți să le importați și apoi vă puteți crea propriile specificații de minerit pentru a extrage exact ceea ce aveți nevoie de pe site-ul sursă.
import.io
Import.io este o suită de instrumente de extragere a datelor, bogată în funcții, care face o mare parte din munca grea pentru dvs. Are câteva funcții interesante, inclusiv „Ce s-a schimbat?” rapoarte care vă pot notifica cu privire la actualizările site-urilor web specificate – ideale pentru analiza aprofundată a concurenței.
Cum folosesc agenții de marketing data scraping?
După cum ați înțeles până acum, răzuirea datelor poate fi utilă aproape oriunde unde sunt utilizate informații. Iată câteva exemple cheie ale modului în care tehnologia este utilizată de marketeri:
Colectarea de date disparate
Unul dintre marile avantaje ale colectării datelor, spune Marcin Rosinski, CEO FeedOptimise, este că vă poate ajuta să aduni diferite date într-un singur loc. „Crawlingul ne permite să luăm date nestructurate, împrăștiate din mai multe surse și să le colectăm într-un singur loc și să le facem structurate”, spune Marcin. „Dacă aveți mai multe site-uri web controlate de diferite entități, le puteți combina pe toate într-un singur flux.
„Spectrul de cazuri de utilizare pentru acest lucru este infinit.”
![](https://s.stat888.com/img/bg.png)
FeedOptimise oferă o mare varietate de servicii de date scraping și feed de date, despre care puteți afla pe site-ul lor.
Accelerarea cercetării
Cea mai simplă utilizare pentru data scraping este preluarea datelor dintr-o singură sursă. Dacă există o pagină web care conține o mulțime de date care ar putea fi utile pentru dvs., cel mai simplu mod de a obține acele informații pe computer într-un format ordonat va fi probabil răzuirea datelor.
Încercați să găsiți o listă de contacte utile pe Twitter și importați datele utilizând data scraping. Acest lucru vă va oferi o idee despre modul în care procesul se poate integra în munca de zi cu zi.
Ieșirea unui flux XML către site-uri terțe
Furnizarea datelor despre produse de pe site-ul dvs. către Cumpărături Google și alți vânzători terți este o aplicație cheie a răzuirii datelor pentru comerțul electronic. Vă permite să automatizați procesul potențial laborios de actualizare a detaliilor produsului – ceea ce este crucial dacă stocul dumneavoastră se schimbă des.
„Scrapingul de date poate scoate fluxul dvs. XML pentru Cumpărături Google”, spune directorul de marketing al Target Internet, Ciaran Rogers. „Am lucrat cu un număr de retaileri online care adăugau continuu noi SKU-uri pe site-ul lor pe măsură ce produsele intrau în stoc. Dacă soluția dvs. de comerț electronic nu generează un flux XML adecvat, puteți să îl conectați la Google Merchant Center, astfel încât să vă puteți promova cele mai bune produse, ceea ce poate reprezenta o problemă. Adesea, cele mai recente produse ale dvs. sunt potențial cele mai vândute, așa că doriți să le faceți publicitate imediat ce sunt disponibile. Am folosit data scraping pentru a produce înregistrări actualizate care să fie transmise în Google Merchant Center. Este o soluție grozavă și, de fapt, puteți face atât de multe cu datele odată ce le aveți. Folosind feedul, puteți eticheta zilnic cele mai bune produse cu conversie, astfel încât să puteți partaja aceste informații cu Google Adwords și să vă asigurați că licitați mai competitiv pentru acele produse. Odată ce l-ați configurat, totul este destul de automat. Flexibilitatea unui flux bun pe care îl controlați în acest fel este grozavă și poate duce la unele îmbunătățiri foarte clare în acele campanii pe care clienții le plac.”
Este posibil să configurați singur un flux de date simplu în Google Merchant Center. Iată cum se face:
Cum să configurați un feed de date în Google Merchant Center
Folosind una dintre tehnicile sau instrumentele descrise anterior, creați un fișier care utilizează o interogare dinamică a site-ului web pentru a importa detaliile produselor listate pe site-ul dvs. Acest fișier ar trebui să se actualizeze automat la intervale regulate.
Detaliile trebuie prezentate așa cum este specificat aici.
- Încărcați acest fișier la o adresă URL protejată prin parolă
- Accesați Google Merchant Center și conectați-vă (asigurați-vă că mai întâi contul dvs. Merchant Center este configurat corect)
- Accesați Produse
- Faceți clic pe butonul plus
- Introdu țara țintă și creează un nume de feed
- Selectați opțiunea „preluare programată”.
- Adăugați adresa URL a fișierului de date despre produs, împreună cu numele de utilizator și parola necesare pentru a-l accesa
- Selectați frecvența de preluare care se potrivește cel mai bine cu programul de încărcare a produsului
- Faceți clic pe Salvare
- Datele despre produse ar trebui să fie acum disponibile în Google Merchant Center. Asigurați-vă că faceți clic pe fila „Diagnosticare” pentru a verifica starea acesteia și pentru a vă asigura că totul funcționează fără probleme.
Partea întunecată a răzuirii datelor
Există multe utilizări pozitive pentru data scraping, dar este abuzat și de o mică minoritate.
Cea mai răspândită utilizare abuzivă a scraping-ului de date este colectarea de e-mail - scraping-ul de date de pe site-uri web, rețele sociale și directoare pentru a descoperi adresele de e-mail ale oamenilor, care sunt apoi vândute către spammeri sau escroci. În unele jurisdicții, utilizarea mijloacelor automate, cum ar fi colectarea datelor pentru a colecta adrese de e-mail cu intenție comercială, este ilegală și este aproape universal considerată o practică de marketing proastă.
Mulți utilizatori de web au adoptat tehnici pentru a ajuta la reducerea riscului ca cei care recoltează e-mail să obțină adresa lor de e-mail, inclusiv:
- Address munging: schimbarea formatului adresei dvs. de e-mail atunci când o postați public, de exemplu, tastând „patrick[at]gmail.com” în loc de „[email protected]”. Aceasta este o abordare ușoară, dar puțin nesigură, pentru a vă proteja adresa de e-mail pe rețelele sociale – unii recoltatori vor căuta diverse combinații de colectare, precum și e-mailuri într-un format normal, deci nu este complet etanș.
- Formulare de contact: folosind un formular de contact în loc să postați adresele dvs. de e-mail pe site-ul dvs. web.
- Imagini: dacă adresa dvs. de e-mail este prezentată sub formă de imagine pe site-ul dvs. web, aceasta va fi dincolo de atingerea tehnologică a majorității persoanelor implicate în colectarea e-mailurilor.
Viitorul de răzuire a datelor
Indiferent dacă intenționați sau nu să utilizați data scraping în munca dvs., este indicat să vă educați asupra subiectului, deoarece este probabil să devină și mai important în următorii câțiva ani.
În prezent, pe piață există IA pentru colectarea datelor, care poate folosi învățarea automată pentru a continua să devină mai bine în recunoașterea intrărilor pe care numai oamenii le-au putut interpreta în mod tradițional, cum ar fi imaginile.
Îmbunătățirile majore ale procesării datelor din imagini și videoclipuri vor avea consecințe de amploare pentru agenții de marketing digital. Pe măsură ce scrapingul imaginilor devine mai aprofundat, vom putea ști mult mai multe despre imaginile online înainte de a le vedea noi înșine – iar acest lucru, precum scraping-ul de date bazat pe text, ne va ajuta să facem multe lucruri mai bine.
Apoi, există cel mai mare răzuitor de date dintre toate – Google. Întreaga experiență de căutare pe web va fi transformată atunci când Google poate deduce cu exactitate cât de mult poate dintr-o imagine dintr-o pagină de copiere - și asta se dublează din perspectiva marketingului digital.
Dacă aveți vreo îndoială dacă acest lucru se poate întâmpla în viitorul apropiat, încercați API-ul de interpretare a imaginii de la Google, Cloud Vision și spuneți-ne ce credeți. obțineți-vă abonamentul gratuit acum - nu este nevoie de un card de credit
CALITATE GRATUITĂ