ไม่มีที่ใดให้ซ่อน: การบล็อกเนื้อหาจากสไปเดอร์ของเครื่องมือค้นหา

เผยแพร่แล้ว: 2022-06-12

TL;DR

  1. หากคุณกำลังพิจารณาที่จะยกเว้นเนื้อหาจากเครื่องมือค้นหา ก่อนอื่นให้ตรวจสอบให้แน่ใจว่าคุณทำด้วยเหตุผลที่ถูกต้อง
  2. อย่าทำผิดพลาดโดยสมมติว่าคุณสามารถซ่อนเนื้อหาในภาษาหรือรูปแบบที่บอทไม่เข้าใจ นั่นเป็นกลยุทธ์ที่มีสายตาสั้น เผชิญหน้ากับพวกเขาโดยใช้ไฟล์ robots.txt หรือแท็ก Meta Robots
  3. อย่าลืมว่าเพียงเพราะคุณกำลังใช้วิธีการที่แนะนำเพื่อบล็อกเนื้อหาที่คุณปลอดภัย ทำความเข้าใจว่าการบล็อกเนื้อหาจะทำให้ไซต์ของคุณปรากฏต่อบอทอย่างไร

เมื่อใดและอย่างไรที่จะยกเว้นเนื้อหาจากดัชนีเครื่องมือค้นหา

แง่มุมที่สำคัญของ SEO คือการโน้มน้าวเครื่องมือค้นหาว่าเว็บไซต์ของคุณมีชื่อเสียงและให้คุณค่าที่แท้จริงแก่ผู้ค้นหา และสำหรับเครื่องมือค้นหาที่จะกำหนดคุณค่าและความเกี่ยวข้องของเนื้อหาของคุณ พวกเขาต้องสวมบทบาทเป็นผู้ใช้

ตอนนี้ ซอฟต์แวร์ที่ดูไซต์ของคุณมีข้อ จำกัด บางอย่างที่ SEO มักใช้ประโยชน์เพื่อซ่อนทรัพยากรบางอย่างจากเครื่องมือค้นหา อย่างไรก็ตาม บ็อตยังคงพัฒนาอย่างต่อเนื่อง และมีความซับซ้อนมากขึ้นเรื่อยๆ ในการพยายามดูหน้าเว็บของคุณเหมือนกับที่ผู้ใช้ทั่วไปทำบนเบราว์เซอร์ ถึงเวลาตรวจสอบเนื้อหาบนเว็บไซต์ของคุณอีกครั้งซึ่งไม่มีให้บ็อตของเครื่องมือค้นหา รวมถึงสาเหตุที่ทำให้ใช้งานไม่ได้ ยังมีข้อจำกัดในบอทและผู้ดูแลเว็บมีเหตุผลที่ถูกต้องในการบล็อกหรือนำเนื้อหาบางส่วนออกจากภายนอก เนื่องจากเสิร์ชเอ็นจิ้นกำลังมองหาไซต์ที่ให้เนื้อหาที่มีคุณภาพแก่ผู้ใช้ ให้ประสบการณ์ของผู้ใช้เป็นแนวทางในโครงการของคุณและส่วนที่เหลือจะเข้าที่

เหตุใดจึงบล็อกเนื้อหาเลย

เมื่อใดควรบล็อกสไปเดอร์ของเครื่องมือค้นหา
ภาพถ่ายโดย Steven Ferris (CC BY 2.0), ดัดแปลง
  1. เนื้อหาส่วนตัว การจัดทำดัชนีหน้าเว็บหมายความว่าหน้าเหล่านั้นพร้อมให้แสดงในผลการค้นหา ดังนั้นจึงปรากฏต่อสาธารณะ หากคุณมีเพจส่วนตัว (ข้อมูลบัญชีของลูกค้า ข้อมูลติดต่อสำหรับบุคคล ฯลฯ) คุณต้องการไม่ให้พวกเขาอยู่ในดัชนี (ไซต์ประเภท whois บางไซต์แสดงข้อมูลผู้ลงทะเบียนใน JavaScript เพื่อหยุดบ็อตขูดจากการขโมยข้อมูลส่วนบุคคล)
  2. เนื้อหาที่ซ้ำกัน ไม่ว่าจะเป็นข้อความสั้นๆ (ข้อมูลเครื่องหมายการค้า สโลแกนหรือคำอธิบาย) หรือทั้งหน้า (เช่น ผลการค้นหาที่กำหนดเองภายในไซต์ของคุณ) หากคุณมีเนื้อหาที่แสดงใน URL หลายรายการในไซต์ของคุณ สไปเดอร์ของเครื่องมือค้นหาอาจมองว่ามีคุณภาพต่ำ . คุณสามารถใช้หนึ่งในตัวเลือกที่มีอยู่เพื่อบล็อกหน้าเหล่านั้น (หรือทรัพยากรแต่ละรายการบนหน้า) จากการจัดทำดัชนี คุณสามารถกำหนดให้ผู้ใช้มองเห็นได้ แต่ถูกบล็อกจากผลการค้นหา ซึ่งจะไม่ส่งผลเสียต่อการจัดอันดับของคุณสำหรับเนื้อหาที่คุณต้องการให้ปรากฏในการค้นหา
  3. เนื้อหาจากแหล่งอื่น เนื้อหา เช่น โฆษณาที่สร้างโดยแหล่งที่มาของบุคคลที่สามและทำซ้ำหลายๆ ที่ทั่วทั้งเว็บ ไม่ได้เป็นส่วนหนึ่งของเนื้อหาหลักของหน้า หากเนื้อหาโฆษณานั้นซ้ำกันหลายครั้งทั่วทั้งเว็บ ผู้ดูแลเว็บอาจต้องการป้องกันไม่ให้มีการดูโฆษณาเป็นส่วนหนึ่งของหน้า

ที่ดูแลว่าทำไม เป็นอย่างไร?

ฉันดีใจที่คุณถาม วิธีหนึ่งที่ใช้กันไม่ให้เนื้อหาอยู่ในดัชนีคือการโหลดเนื้อหาจากแหล่งภายนอกที่ถูกบล็อกโดยใช้ภาษาที่บอทไม่สามารถแยกวิเคราะห์หรือดำเนินการได้ มันเหมือนกับว่าคุณสะกดคำให้ผู้ใหญ่คนอื่นเพราะคุณไม่ต้องการให้เด็กวัยหัดเดินในห้องรู้ว่าคุณกำลังพูดถึงอะไร ปัญหาคือ ลูกวัยเตาะแตะในสถานการณ์นี้เริ่มฉลาดขึ้น เป็นเวลานาน หากคุณต้องการซ่อนบางสิ่งจากเครื่องมือค้นหา คุณสามารถใช้ JavaScript เพื่อโหลดเนื้อหานั้น ซึ่งหมายความว่าผู้ใช้จะได้รับมัน บอทไม่ทำ

แต่ Google ไม่ได้ขี้อายเลยเกี่ยวกับความปรารถนาที่จะแยกวิเคราะห์ JavaScript กับบอทของพวกเขา และพวกเขากำลังเริ่มทำมัน เครื่องมือดึงข้อมูลเหมือนเป็น Google ในเครื่องมือของผู้ดูแลเว็บช่วยให้คุณเห็นแต่ละหน้าตามที่บ็อตของ Google เห็น

สกรีนช็อตของการดึงข้อมูลเหมือนเป็น Google Webmaster Tool

หากคุณใช้ JavaScript เพื่อบล็อกเนื้อหาในไซต์ของคุณ คุณควรตรวจสอบบางหน้าในเครื่องมือนี้ มีโอกาสที่ Google เห็นมัน

อย่างไรก็ตาม โปรดทราบว่าการที่ Google สามารถแสดงผลเนื้อหาใน JavaScript ไม่ได้หมายความว่าเนื้อหานั้นถูกแคชไว้ เครื่องมือ "ดึงข้อมูลและแสดงผล" จะแสดงให้คุณเห็นว่าบอทสามารถเห็นอะไร หากต้องการทราบว่ามีการจัดทำดัชนีอะไร คุณควรตรวจสอบเวอร์ชันแคชของหน้าเว็บ

สกรีนช็อตของวิธีค้นหา Google cache ของเว็บไซต์ของคุณ

มีวิธีการอื่นๆ มากมายในการทำให้เนื้อหาเป็นเนื้อหาภายนอกที่ผู้คนพูดคุยกัน: iframes, AJAX, jQuery แต่ในปี 2012 การทดลองแสดงให้เห็นว่า Google สามารถรวบรวมข้อมูลลิงก์ที่อยู่ใน iframe ได้ ดังนั้นเทคนิคนั้นจึงเกิดขึ้น อันที่จริง ยุคสมัยของการพูดภาษาที่บอทไม่เข้าใจนั้นใกล้จะสิ้นสุดแล้ว

แต่ถ้าคุณถามบอทอย่างสุภาพเพื่อหลีกเลี่ยงการดูบางสิ่ง การบล็อกหรือไม่อนุญาตองค์ประกอบใน robots.txt หรือแท็ก Meta Robots เป็นวิธีเดียวเท่านั้น (ซึ่งสั้นจากไดเรกทอรีเซิร์ฟเวอร์ที่ป้องกันด้วยรหัสผ่าน) ในการป้องกันไม่ให้องค์ประกอบหรือหน้าถูกสร้างดัชนี

John Mueller แสดงความคิดเห็นเมื่อเร็วๆ นี้ว่าเนื้อหาที่สร้างด้วยฟีด AJAX/JSON จะ “มองไม่เห็น [Google] หากคุณไม่อนุญาตให้รวบรวมข้อมูล JavaScript ของคุณ” เขายังชี้แจงต่อไปว่าการบล็อก CSS หรือ JavaScript เพียงอย่างเดียวไม่ได้ส่งผลเสียต่อการจัดอันดับของคุณเสมอไป: “แน่นอนว่าไม่มี 'CSS หรือ JavaScript ธรรมดาที่ไม่ได้รับอนุญาตจากการรวบรวมข้อมูล ดังนั้นอัลกอริธึมที่มีคุณภาพจึงมองความสัมพันธ์ในเชิงลบของไซต์' ดังนั้น วิธีที่ดีที่สุดในการกันเนื้อหาออกจากดัชนีคือการขอให้เครื่องมือค้นหาไม่จัดทำดัชนีเนื้อหาของคุณ ซึ่งอาจเป็น URL แต่ละรายการ ไดเร็กทอรี หรือไฟล์ภายนอก

สิ่งนี้นำเรากลับไปที่จุดเริ่มต้น: ทำไม ก่อนตัดสินใจบล็อกเนื้อหาใด ๆ ของคุณ ตรวจสอบให้แน่ใจว่าคุณรู้ว่าทำไมคุณถึงทำแบบนั้น รวมถึงความเสี่ยงด้วย ก่อนอื่น การบล็อกไฟล์ CSS หรือ JavaScript ของคุณ (โดยเฉพาะไฟล์ที่มีส่วนสำคัญต่อการจัดวางไซต์ของคุณ) นั้นมีความเสี่ยง มันสามารถป้องกันไม่ให้เสิร์ชเอ็นจิ้นเห็นว่าหน้าของคุณได้รับการปรับให้เหมาะกับมือถือหรือไม่ ไม่เพียงแค่นั้น แต่หลังจากการเปิดตัว Panda 4.0 แล้ว บางไซต์ที่โดนโจมตีอย่างหนักสามารถฟื้นตัวได้ด้วยการเลิกบล็อก CSS และ JavaScript ซึ่งบ่งชี้ว่าพวกเขาตกเป็นเป้าหมายโดยอัลกอริธึมของ Google ในการบล็อกองค์ประกอบเหล่านี้จากบอท

ความเสี่ยงอีกอย่างหนึ่งที่คุณเรียกใช้เมื่อบล็อกเนื้อหา: สไปเดอร์ของเครื่องมือค้นหาอาจมองไม่เห็นสิ่งที่ถูกบล็อก แต่พวกเขารู้ว่ามี บางสิ่ง ถูกบล็อก ดังนั้นพวกเขาจึงอาจถูกบังคับให้ตั้งสมมติฐานว่าเนื้อหานั้นคืออะไร พวกเขารู้ว่าโฆษณามักจะซ่อนอยู่ใน iframe หรือแม้แต่ CSS ดังนั้นหากคุณมีเนื้อหาที่บล็อกใกล้กับส่วนบนของหน้ามากเกินไป คุณอาจเสี่ยงที่จะถูกโจมตีโดยอัลกอริธึมเค้าโครงหน้า "หนักที่สุด" เว็บมาสเตอร์ที่อ่านข้อความนี้ที่กำลังพิจารณาใช้ iframes ควรพิจารณาปรึกษากับ SEO ที่มีชื่อเสียงก่อน (ใส่โปรโมชั่น BCI ไร้ยางอายที่นี่)