ما هو استخلاص البيانات وكيف يمكنك استخدامه؟

نشرت: 2017-09-13

ما هو تجريف البيانات؟

تجريف البيانات ، المعروف أيضًا باسم تجريف الويب ، هو عملية استيراد المعلومات من موقع ويب إلى جدول بيانات أو ملف محلي محفوظ على جهاز الكمبيوتر الخاص بك. إنها إحدى أكثر الطرق فعالية للحصول على البيانات من الويب ، وفي بعض الحالات لتوجيه تلك البيانات إلى موقع ويب آخر. تشمل الاستخدامات الشائعة لجمع البيانات ما يلي:

  • البحث عن محتوى الويب / ذكاء الأعمال
  • تسعير مواقع حجز السفر / مواقع مقارنة الأسعار
  • البحث عن عملاء المبيعات / إجراء أبحاث السوق عن طريق الزحف إلى مصادر البيانات العامة (مثل Yell و Twitter)
  • إرسال بيانات المنتج من موقع التجارة الإلكترونية إلى بائع آخر عبر الإنترنت (مثل Google Shopping)

وهذه القائمة تخدش السطح فقط. يحتوي تجريف البيانات على عدد كبير من التطبيقات - إنه مفيد في أي حالة تقريبًا حيث يجب نقل البيانات من مكان إلى آخر.

من السهل نسبيًا إتقان أساسيات استخراج البيانات. دعنا نتعرف على كيفية إعداد إجراء تجريف بيانات بسيط باستخدام Excel.

تجريف البيانات باستخدام استعلامات الويب الديناميكية في Microsoft Excel

يعد إعداد استعلام ويب ديناميكي في Microsoft Excel طريقة سهلة ومتعددة الاستخدامات لاستخراج البيانات التي تمكنك من إعداد موجز بيانات من موقع ويب خارجي (أو مواقع ويب متعددة) في جدول بيانات.

شاهد هذا الفيديو التعليمي الممتاز للتعرف على كيفية استيراد البيانات من الويب إلى Excel - أو ، إذا كنت تفضل ذلك ، استخدم الإرشادات المكتوبة أدناه:

  • افتح مصنفًا جديدًا في Excel
  • انقر فوق الخلية التي تريد استيراد البيانات إليها
  • انقر فوق علامة التبويب "البيانات"
  • انقر فوق "الحصول على بيانات خارجية"
  • انقر فوق رمز "من الويب"
  • لاحظ الأسهم الصفراء الصغيرة التي تظهر في الجزء العلوي الأيسر من صفحة الويب وبجانب محتوى معين
  • الصق عنوان URL لصفحة الويب التي تريد استيراد البيانات منها في شريط العناوين (نوصي باختيار موقع تظهر فيه البيانات في الجداول)
  • انقر فوق "انتقال"
  • انقر فوق السهم الأصفر بجانب البيانات التي ترغب في استيرادها
  • انقر فوق "استيراد"
  • ينبثق مربع حوار "استيراد البيانات"
  • انقر فوق "موافق" (أو قم بتغيير تحديد الخلية ، إذا أردت)

إذا اتبعت هذه الخطوات ، فمن المفترض أن تتمكن الآن من رؤية البيانات من موقع الويب المحدد في جدول البيانات الخاص بك.

إن الشيء العظيم في استعلامات الويب الديناميكية هو أنها لا تقوم فقط باستيراد البيانات إلى جدول البيانات الخاص بك كعملية لمرة واحدة - إنها تغذيها ، مما يعني أن جدول البيانات يتم تحديثه بانتظام بأحدث إصدار من البيانات ، كما يظهر في موقع المصدر. لهذا السبب نسميهم ديناميكيًا.

لتكوين مدى تكرار تحديث استعلام الويب الديناميكي للبيانات التي يستوردها ، انتقل إلى "البيانات" ، ثم "الخصائص" ، ثم حدد التردد ("التحديث كل X دقيقة").

تجريف البيانات الآلي بالأدوات

يعد التعامل مع استخدام استعلامات الويب الديناميكية في Excel طريقة مفيدة لفهم تجريف البيانات. ومع ذلك ، إذا كنت تنوي استخدام تجريف البيانات بانتظام في عملك ، فقد تجد أداة مخصصة لكشط البيانات أكثر فعالية.

فيما يلي أفكارنا حول عدد قليل من أدوات استخراج البيانات الأكثر شيوعًا في السوق:

مكشطة البيانات (مكون Chrome الإضافي)
يتم إدخال مكشطة البيانات مباشرة في ملحقات متصفح Chrome ، مما يسمح لك بالاختيار من بين مجموعة من "وصفات" استخراج البيانات الجاهزة لاستخراج البيانات من أي صفحة ويب يتم تحميلها في متصفحك.

تعمل هذه الأداة بشكل جيد مع مصادر استخراج البيانات الشائعة مثل Twitter و Wikipedia ، حيث يشتمل المكون الإضافي على مجموعة أكبر من خيارات الوصفات لمثل هذه المواقع.

لقد جربنا Data Scraper من خلال التنقيب عن هاشتاج Twitter ، “#jourorequest” ، لفرص العلاقات العامة ، باستخدام إحدى الوصفات العامة للأداة. هذه لمحة عن البيانات التي حصلنا عليها:

مثال إخراج DataMiner

كما ترى ، فقد قدمت الأداة جدولًا يحتوي على اسم المستخدم لكل حساب تم نشره مؤخرًا على علامة التصنيف ، بالإضافة إلى تغريدته وعنوان URL الخاص به

سيكون الحصول على هذه البيانات بهذا التنسيق أكثر فائدة لممثل العلاقات العامة من مجرد رؤية البيانات في عرض متصفح Twitter لعدد من الأسباب:

  • يمكن استخدامه للمساعدة في إنشاء قاعدة بيانات للاتصالات الصحفية
  • يمكنك الاستمرار في الرجوع إلى هذه القائمة والعثور بسهولة على ما تبحث عنه ، بينما يتم تحديث Twitter باستمرار
  • القائمة قابلة للفرز والتحرير
  • يمنحك ملكية البيانات - التي يمكن نقلها إلى وضع عدم الاتصال أو تغييرها في أي لحظة

لقد أعجبنا Data Scraper ، على الرغم من أن وصفاته العامة تكون أحيانًا صعبة بعض الشيء. حاول تثبيت الإصدار المجاني على Chrome ، واستمتع باستخراج البيانات. تأكد من مشاهدة الفيلم التمهيدي الذي يقدمونه للحصول على فكرة عن كيفية عمل الأداة وبعض الطرق البسيطة لاستخراج البيانات التي تريدها.

ويب هارفي
WebHarvy عبارة عن مكشطة بيانات تعمل بالتوجيه والنقر بإصدار تجريبي مجاني. أكبر نقطة بيع لها هي مرونتها - يمكنك استخدام متصفح الويب المدمج في الأداة للتنقل إلى البيانات التي ترغب في استيرادها ، ويمكنك بعد ذلك إنشاء مواصفات التعدين الخاصة بك لاستخراج ما تحتاجه بالضبط من موقع الويب المصدر.

import.io
Import.io عبارة عن مجموعة أدوات غنية بالميزات لاستخراج البيانات تقوم بالكثير من العمل الشاق نيابة عنك. لديها بعض الميزات الشيقة ، بما في ذلك "ما الذي تغير؟" التقارير التي يمكنها إخطارك بالتحديثات على مواقع الويب المحددة - مثالية لتحليل المنافسين المتعمق.

كيف يستخدم المسوقون تجريف البيانات؟

نظرًا لأنك ستجمع بحلول هذه المرحلة ، يمكن أن يكون تجريف البيانات مفيدًا في أي مكان يتم فيه استخدام المعلومات. فيما يلي بعض الأمثلة الرئيسية لكيفية استخدام المسوقين للتكنولوجيا:

جمع بيانات متباينة
يقول Marcin Rosinski ، الرئيس التنفيذي لشركة FeedOptimise ، إن إحدى المزايا العظيمة لاستخراج البيانات هي أنه يمكن أن يساعدك في جمع بيانات مختلفة في مكان واحد. يقول مارسين: "يتيح لنا الزحف أخذ بيانات متفرقة وغير منظمة من مصادر متعددة وجمعها في مكان واحد وجعلها منظمة". "إذا كان لديك عدة مواقع ويب تتحكم فيها كيانات مختلفة ، فيمكنك دمجها كلها في موجز واحد.

"نطاق حالات الاستخدام لهذا لا حصر له."

تقدم FeedOptimise مجموعة متنوعة من خدمات استخراج البيانات وتغذية البيانات ، والتي يمكنك العثور عليها على موقع الويب الخاص بهم.

تسريع البحث
أبسط استخدام لاستخراج البيانات هو استرداد البيانات من مصدر واحد. إذا كانت هناك صفحة ويب تحتوي على الكثير من البيانات التي قد تكون مفيدة لك ، فمن المحتمل أن تكون أسهل طريقة للحصول على هذه المعلومات على جهاز الكمبيوتر الخاص بك بتنسيق منظم هي جمع البيانات.

حاول العثور على قائمة جهات الاتصال المفيدة على Twitter ، واستورد البيانات باستخدام كشط البيانات. سيعطيك هذا لمحة عن كيفية تناسب هذه العملية مع عملك اليومي.

إخراج موجز XML إلى مواقع الطرف الثالث
يعد إدخال بيانات المنتج من موقعك إلى Google Shopping وبائعي الطرف الثالث تطبيقًا رئيسيًا لجمع البيانات من أجل التجارة الإلكترونية. يسمح لك بأتمتة العملية الشاقة لتحديث تفاصيل منتجك - وهو أمر بالغ الأهمية إذا تغير مخزونك كثيرًا.

يقول سياران روجرز ، مدير التسويق عبر الإنترنت المستهدف: "لقد عملت مع عدد من بائعي التجزئة عبر الإنترنت الذين كانوا يضيفون باستمرار وحدات SKU جديدة إلى مواقعهم مع توفر المنتجات في المخزون. إذا كان حل التجارة الإلكترونية الخاص بك لا يُخرج موجز XML مناسبًا ، فيمكنك ربطه بـ Google Merchant Center الخاص بك حتى تتمكن من الإعلان عن أفضل منتجاتك التي يمكن أن تكون مشكلة. غالبًا ما تكون أحدث منتجاتك هي الأفضل مبيعًا ، لذا فأنت تريد الإعلان عنها بمجرد نشرها. لقد استخدمت كشط البيانات لإنتاج قوائم محدثة لتقديمها إلى Google Merchant Center. إنه حل رائع ، وفي الواقع ، هناك الكثير الذي يمكنك فعله بالبيانات بمجرد حصولك عليها. باستخدام الخلاصة ، يمكنك وضع علامة على أفضل المنتجات المحولة على أساس يومي حتى تتمكن من مشاركة هذه المعلومات مع Google Adwords والتأكد من تقديم عروض أسعار أكثر تنافسية على تلك المنتجات. بمجرد إعداده ، يكون كل شيء آليًا تمامًا. إن مرونة الخلاصة الجيدة التي تتحكم فيها بهذه الطريقة رائعة ، ويمكن أن تؤدي إلى بعض التحسينات المحددة للغاية في تلك الحملات التي يحبها العملاء ".

من الممكن إعداد موجز بيانات بسيط في Google Merchant Center بنفسك. إليك كيف يتم ذلك:

كيفية إعداد موجز بيانات Google Merchant Center

باستخدام أحد الأساليب أو الأدوات الموضحة مسبقًا ، قم بإنشاء ملف يستخدم استعلام موقع ويب ديناميكي لاستيراد تفاصيل المنتجات المدرجة في موقعك. يجب تحديث هذا الملف تلقائيًا على فترات منتظمة.

يجب تحديد التفاصيل على النحو المحدد هنا.

  • قم بتحميل هذا الملف إلى عنوان URL محمي بكلمة مرور
  • انتقل إلى Google Merchant Center وسجّل الدخول (تأكد أولاً من إعداد حساب Merchant Center بشكل صحيح)
  • انتقل إلى المنتجات
  • انقر فوق زر علامة الجمع
  • أدخل بلدك المستهدف وأنشئ اسم موجز
  • حدد خيار "الجلب المجدول"
  • أضف عنوان URL لملف بيانات المنتج ، إلى جانب اسم المستخدم وكلمة المرور المطلوبين للوصول إليه
  • حدد معدل الجلب الأكثر ملاءمة لجدول تحميل المنتج الخاص بك
  • انقر فوق حفظ
  • من المفترض أن تكون بيانات منتجك متاحة الآن في Google Merchant Center. فقط تأكد من النقر فوق علامة التبويب "التشخيصات" للتحقق من حالتها والتأكد من أنها تعمل بسلاسة.

الجانب المظلم من تجريف البيانات

هناك العديد من الاستخدامات الإيجابية لكشط البيانات ، ولكن يتم إساءة استخدامها من قبل أقلية صغيرة أيضًا.

يعد جمع البريد الإلكتروني هو أكثر إساءة استخدام لاستخراج البيانات انتشارًا - وهو جمع البيانات من مواقع الويب ووسائل التواصل الاجتماعي والأدلة للكشف عن عناوين البريد الإلكتروني للأشخاص ، والتي يتم بيعها بعد ذلك لمرسلي البريد العشوائي أو المحتالين. في بعض الولايات القضائية ، يعد استخدام الوسائل الآلية مثل جمع البيانات لجمع عناوين البريد الإلكتروني بغرض تجاري أمرًا غير قانوني ، ويعتبر تقريبًا ممارسة تسويقية سيئة في جميع أنحاء العالم.

اعتمد العديد من مستخدمي الويب تقنيات للمساعدة في تقليل مخاطر حصول جامعي البريد الإلكتروني على عناوين بريدهم الإلكتروني ، بما في ذلك:

  • عنوان munging: تغيير تنسيق عنوان بريدك الإلكتروني عند نشره بشكل عام ، على سبيل المثال كتابة "patrick [at] gmail.com" بدلاً من "[email protected]". يعد هذا أسلوبًا سهلًا ولكنه غير موثوق به إلى حد ما لحماية عنوان بريدك الإلكتروني على وسائل التواصل الاجتماعي - سيبحث بعض الحاصدين عن مجموعات متنوعة بالإضافة إلى رسائل البريد الإلكتروني بتنسيق عادي ، لذا فهو ليس محكم الإغلاق تمامًا.
  • نماذج الاتصال: استخدام نموذج اتصال بدلاً من نشر عنوان (عناوين) بريدك الإلكتروني على موقع الويب الخاص بك.
  • الصور: إذا تم تقديم عنوان بريدك الإلكتروني في شكل صورة على موقع الويب الخاص بك ، فسيكون بعيدًا عن متناول معظم الأشخاص المشاركين في تجميع البريد الإلكتروني.

مستقبل كشط البيانات

سواء كنت تنوي استخدام تجريف البيانات في عملك أم لا ، فمن المستحسن تثقيف نفسك حول هذا الموضوع ، لأنه من المحتمل أن يصبح أكثر أهمية في السنوات القليلة المقبلة.

هناك الآن بيانات تتخلص من الذكاء الاصطناعي في السوق يمكنها استخدام التعلم الآلي لمواصلة التحسن في التعرف على المدخلات التي كان البشر فقط قادرين تقليديًا على تفسيرها - مثل الصور.

سيكون للتحسينات الكبيرة في استخراج البيانات من الصور ومقاطع الفيديو عواقب بعيدة المدى على المسوقين الرقميين. نظرًا لأن تجريف الصور يصبح أكثر تعمقًا ، سنكون قادرين على معرفة المزيد عن الصور عبر الإنترنت قبل أن نراها بأنفسنا - وهذا ، مثل تجريف البيانات المستندة إلى النص ، سيساعدنا على القيام بالكثير من الأشياء بشكل أفضل.

ثم هناك أكبر أداة لجمع البيانات على الإطلاق - Google. ستتغير التجربة الكاملة لبحث الويب عندما يمكن لـ Google أن تستنتج بدقة أكبر قدر ممكن من الصورة من صفحة نسخة - وهذا يتضاعف من منظور التسويق الرقمي.

إذا كان لديك أي شك حول ما إذا كان هذا يمكن أن يحدث في المستقبل القريب ، فجرّب واجهة برمجة تطبيقات تفسير الصور من Google و Cloud Vision ، وأخبرنا برأيك.

احصل على عضويتك المجانية الآن - لا حاجة لبطاقة ائتمان على الإطلاق

  • مجموعة أدوات التسويق الرقمي
  • جلسات تعليم فيديو حية حصرية
  • مكتبة كاملة من بودكاست التسويق الرقمي
  • أدوات قياس المهارات الرقمية
  • دورات تدريبية مجانية عبر الإنترنت

عضوية مجانية
مخطط معلومات بياني