لم يتبق للاختباء في أي مكان: منع المحتوى من عناكب محرك البحث

نشرت: 2022-06-12

TL ؛ DR

  1. إذا كنت تفكر في استبعاد المحتوى من محركات البحث ، فتأكد أولاً من قيامك بذلك للأسباب الصحيحة.
  2. لا تخطئ في افتراض أنه يمكنك إخفاء محتوى بلغة أو تنسيق لن تفهمه الروبوتات ؛ هذه استراتيجية قصيرة النظر. كن في المقدمة معهم باستخدام ملف robots.txt أو علامة Meta Robots.
  3. لا تنس أنه لمجرد أنك تستخدم الأساليب الموصى بها لحظر المحتوى فأنت في أمان. افهم كيف أن حظر المحتوى سيجعل موقعك يظهر للروبوتات.

متى وكيف يتم استبعاد المحتوى من فهرس محرك البحث

يتمثل أحد الجوانب الرئيسية لـ SEO في إقناع محركات البحث بأن موقع الويب الخاص بك يتمتع بسمعة طيبة ويوفر قيمة حقيقية للباحثين. ولكي تحدد محركات البحث قيمة وأهمية المحتوى الخاص بك ، يجب أن تضع نفسها في مكان المستخدم.

الآن ، يحتوي البرنامج الذي ينظر إلى موقعك على بعض القيود التي استغلها مُحسِّن محركات البحث تقليديًا لإبقاء موارد معينة مخفية عن محركات البحث. تستمر الروبوتات في التطور ، ومع ذلك ، تزداد تعقيدًا بشكل مستمر في جهودها لرؤية صفحة الويب الخاصة بك كما يفعل المستخدم البشري على المتصفح. حان الوقت لإعادة فحص المحتوى الموجود على موقعك غير المتاح لروبوتات محرك البحث ، بالإضافة إلى أسباب عدم توفره. لا تزال هناك قيود في برامج الروبوت ، ولدى مشرفي المواقع أسباب مشروعة لحظر أو إخراج أجزاء معينة من المحتوى. نظرًا لأن محركات البحث تبحث عن المواقع التي تقدم محتوى عالي الجودة للمستخدمين ، دع تجربة المستخدم توجه مشاريعك وسيقع الباقي في مكانه.

لماذا حظر المحتوى على الإطلاق؟

متى يتم حظر عناكب محرك البحث
صورة لستيفن فيريس (CC BY 2.0) معدلة
  1. محتوى خاص. تعني فهرسة الصفحات أنها متاحة للظهور في نتائج البحث ، وبالتالي فهي مرئية للجمهور. إذا كانت لديك صفحات خاصة (معلومات حساب العملاء ، ومعلومات الاتصال للأفراد ، وما إلى ذلك) ، فأنت تريد إبقائها خارج الفهرس. (تعرض بعض المواقع من نوع whois معلومات المسجل في JavaScript لمنع برامج التتبع الكاشطة من سرقة المعلومات الشخصية.)
  2. محتوى مكرر. سواء كانت مقتطفات من النص (معلومات العلامة التجارية أو الشعارات أو الأوصاف) أو صفحات كاملة (على سبيل المثال ، نتائج البحث المخصصة داخل موقعك) ، إذا كان لديك محتوى يظهر على عدة عناوين URL على موقعك ، فقد ترى عناكب محرك البحث ذلك على أنه جودة منخفضة . يمكنك استخدام أحد الخيارات المتاحة لمنع فهرسة تلك الصفحات (أو الموارد الفردية على الصفحة). يمكنك إبقائها مرئية للمستخدمين ولكن يتم حظرها من نتائج البحث ، مما لن يضر بترتيبك للمحتوى الذي تريد ظهوره في البحث.
  3. محتوى من مصادر أخرى. لا يعتبر المحتوى ، مثل الإعلانات ، التي يتم إنشاؤها بواسطة مصادر جهات خارجية وتكرارها في عدة أماكن عبر الويب ، جزءًا من المحتوى الأساسي للصفحة. إذا تم تكرار محتوى الإعلان هذا عدة مرات عبر الويب ، فقد يرغب مشرف الموقع في منع عرض الإعلانات كجزء من الصفحة.

هذا يهتم لماذا ، ماذا عن كيف؟

أنا سعيد لأنك سألت. إحدى الطرق المستخدمة لإبقاء المحتوى خارج الفهرس هي تحميل المحتوى من مصدر خارجي محظور باستخدام لغة لا تستطيع الروبوتات تحليلها أو تنفيذها ؛ يبدو الأمر كما لو أنك تهجئ كلمات لشخص بالغ آخر لأنك لا تريد أن يعرف الطفل في الغرفة ما الذي تتحدث عنه. المشكلة هي أن الطفل الصغير في هذه الحالة يصبح أكثر ذكاءً. لفترة طويلة ، إذا كنت ترغب في إخفاء شيء ما من محركات البحث ، فيمكنك استخدام JavaScript لتحميل هذا المحتوى ، مما يعني أن المستخدمين يحصلون عليه ، ولكن الروبوتات لا تفعل ذلك.

لكن Google لا تخجل على الإطلاق من رغبتها في تحليل JavaScript مع برامج الروبوت الخاصة بهم. وقد بدأوا في فعل ذلك. تتيح لك أداة الجلب مثل Google في أدوات مشرفي المواقع رؤية الصفحات الفردية كما تراها برامج الروبوت الخاصة بـ Google.

لقطة شاشة لـ Fetch as Google Webmaster Tool

إذا كنت تستخدم JavaScript لحظر محتوى على موقعك ، فيجب عليك التحقق من بعض الصفحات في هذه الأداة ؛ هناك احتمالات ، يرى Google ذلك.

ومع ذلك ، ضع في اعتبارك أن مجرد قدرة Google على عرض المحتوى بجافا سكريبت لا يعني أنه يتم تخزين المحتوى مؤقتًا. تعرض لك أداة "الجلب والاستعراض" ما يمكن أن يراه الروبوت ؛ لمعرفة ما يتم فهرسته ، لا يزال يتعين عليك التحقق من النسخة المخبأة للصفحة.

لقطة شاشة توضح كيفية العثور على ذاكرة التخزين المؤقت لـ Google لموقعك

هناك الكثير من الطرق الأخرى لإضفاء الطابع الخارجي على المحتوى التي يناقشها الأشخاص: iframes و AJAX و jQuery. ولكن منذ عام 2012 ، أظهرت التجارب أن Google يمكنه الزحف إلى الروابط الموضوعة في إطارات iframe. لذلك هناك تلك التقنية. في الواقع ، تقترب أيام التحدث بلغة لا تستطيع الروبوتات فهمها من نهايتها.

ولكن ماذا لو طلبت من الروبوتات بأدب تجنب النظر إلى أشياء معينة؟ يعد حظر العناصر أو عدم السماح بها في ملف robots.txt أو علامة Meta Robots هي الطريقة الوحيدة المعينة (باستثناء أدلة الخادم التي تحمي كلمة المرور) لمنع العناصر أو الصفحات من الفهرسة.

علق John Mueller مؤخرًا أن المحتوى الذي تم إنشاؤه باستخدام خلاصات AJAX / JSON سيكون "غير مرئي لـ [Google] إذا لم تسمح بالزحف إلى جافا سكريبت الخاص بك." ويوضح أيضًا أن حظر CSS أو JavaScript ببساطة لن يضر بترتيبك بالضرورة: "لا يوجد بالتأكيد" CSS أو JavaScript غير مسموح بهما من الزحف ، وبالتالي فإن خوارزميات الجودة تعرض "علاقة" الموقع بشكل سلبي. لذا فإن أفضل طريقة لإبقاء المحتوى خارج الفهرس هي ببساطة مطالبة محركات البحث بعدم فهرسة المحتوى الخاص بك. يمكن أن يكون هذا عناوين URL فردية أو أدلة أو ملفات خارجية.

هذا ، إذن ، يعيدنا إلى البداية: لماذا. قبل أن تقرر حظر أي محتوى خاص بك ، تأكد من أنك تعرف سبب قيامك بذلك ، بالإضافة إلى المخاطر. بادئ ذي بدء ، يعد حظر ملفات CSS أو JavaScript (خاصة تلك التي تساهم بشكل كبير في تخطيط موقعك) أمرًا محفوفًا بالمخاطر ؛ يمكنه ، من بين أمور أخرى ، منع محركات البحث من معرفة ما إذا كانت صفحاتك محسّنة للجوال. ليس هذا فقط ، ولكن بعد إطلاق Panda 4.0 ، تمكنت بعض المواقع التي تعرضت لضربة قوية من التعافي من خلال إلغاء حظر CSS و JavaScript الخاص بها مما يشير إلى أنها مستهدفة على وجه التحديد بواسطة خوارزمية Google لحظر هذه العناصر من الروبوتات.

هناك خطر آخر تتعرض له عند حظر المحتوى: قد لا تتمكن عناكب محرك البحث من رؤية ما يتم حظره ، لكنهم يعلمون أن شيئًا ما تم حظره ، لذلك قد يضطرون إلى وضع افتراضات حول ماهية هذا المحتوى. يعرفون أن الإعلانات ، على سبيل المثال ، غالبًا ما تكون مخفية في إطارات iframe أو حتى CSS ؛ لذلك إذا كان لديك محتوى محظور كثيرًا بالقرب من أعلى الصفحة ، فإنك تخاطر بالتعرض للاصطدام بخوارزمية تخطيط الصفحة "الأعلى ثقيلًا". يجب على أي مشرف موقع يقرأ هذا ويفكر في استخدام إطارات iframe أن يفكر بشدة في التشاور مع أحد مُحسنات محركات البحث حسن السمعة أولاً. (أدخل عرض BCI الوقح هنا.)