จะกำหนดงบประมาณการรวบรวมข้อมูลได้อย่างไร

เผยแพร่แล้ว: 2016-09-14

เราทุกคนพูดถึงเรื่องนี้ในฐานะ SEO แต่งบประมาณการรวบรวมข้อมูลทำงานอย่างไร เรารู้ว่าจำนวนหน้าที่เครื่องมือค้นหารวบรวมข้อมูลและจัดทำดัชนีเมื่อเข้าชมเว็บไซต์ของลูกค้าของเรามีความสัมพันธ์กับความสำเร็จในการค้นหาทั่วไป แต่มีงบประมาณการรวบรวมข้อมูลที่มากขึ้นดีกว่าเสมอหรือไม่

เช่นเดียวกับทุกอย่างใน Google ฉันไม่คิดว่าความสัมพันธ์ระหว่างงบประมาณการรวบรวมข้อมูลเว็บไซต์ของคุณกับการจัดอันดับ/ประสิทธิภาพ SERP นั้นตรงไปตรงมา 100% ขึ้นอยู่กับปัจจัยหลายประการ

เหตุใดงบประมาณการรวบรวมข้อมูลจึงมีความสำคัญ เนื่องจากการอัพเดทคาเฟอีนปี 2010 ด้วยการอัปเดตนี้ Google ได้สร้างวิธีการจัดทำดัชนีเนื้อหาขึ้นใหม่ด้วยการจัดทำดัชนีส่วนเพิ่ม ขอแนะนำระบบ 'percolator' พวกเขาลบ 'คอขวด' ของหน้าเว็บที่ได้รับการจัดทำดัชนี

Google กำหนดงบประมาณการรวบรวมข้อมูลอย่างไร

ทั้งหมดเกี่ยวกับ PageRank, Citation Flow และ Trust Flow ของคุณ

เหตุใดฉันจึงไม่ได้กล่าวถึง Domain Authority ตามจริงแล้ว ในความคิดของฉัน มันเป็นหนึ่งในตัวชี้วัดที่ใช้ผิดและเข้าใจผิดมากที่สุดสำหรับ SEO และนักการตลาดเนื้อหาที่มีที่ของมัน แต่เอเจนซี่และ SEO จำนวนมากเกินไปให้คุณค่ากับมันมากเกินไป โดยเฉพาะอย่างยิ่งเมื่อสร้างลิงก์

แน่นอนว่า PageRank นั้นล้าสมัยแล้ว โดยเฉพาะอย่างยิ่งเมื่อพวกเขาได้ทิ้งแถบเครื่องมือ ดังนั้นจึงเป็นเรื่องของอัตราส่วนความน่าเชื่อถือของเว็บไซต์ (อัตราส่วนความน่าเชื่อถือ = กระแสความน่าเชื่อถือ/กระแสอ้างอิง) โดยพื้นฐานแล้ว โดเมนที่มีประสิทธิภาพมากขึ้นจะมีงบประมาณในการรวบรวมข้อมูลที่มากขึ้น ดังนั้นคุณจะระบุกิจกรรมบ็อตของ Google บนเว็บไซต์ของคุณได้อย่างไร และที่สำคัญคือระบุปัญหาการรวบรวมข้อมูลของบอทได้อย่างไร ไฟล์บันทึกของเซิร์ฟเวอร์

ตอนนี้เราทุกคนรู้แล้วว่าเพื่อระบุหน้าไปยัง Google bot ว่าเราได้ทำการจัดทำดัชนี (และการจัดอันดับ) อย่างไร เราใช้โครงสร้างการเชื่อมโยงภายในและเก็บไว้ใกล้กับโดเมนราก ไม่ใช่ 5 โฟลเดอร์ย่อยตาม URL แต่แล้วปัญหาทางเทคนิคเพิ่มเติมล่ะ? เช่นเดียวกับการรวบรวมข้อมูลการสูญเสียงบประมาณ กับดักของบอท หรือหาก Google พยายามกรอกแบบฟอร์มบนเว็บไซต์ (เกิดขึ้น)

การระบุกิจกรรมของโปรแกรมรวบรวมข้อมูล

ในการทำเช่นนี้ คุณต้องใช้ล็อกไฟล์ของเซิร์ฟเวอร์บางไฟล์ คุณอาจต้องขอข้อมูลเหล่านี้จากลูกค้าของคุณ หรือดาวน์โหลดจากบริษัทโฮสติ้งได้โดยตรง

แนวคิดเบื้องหลังนี้คือคุณต้องการลองค้นหาบันทึกของบอทของ Google ที่เข้าชมไซต์ของคุณ แต่เนื่องจากนี่ไม่ใช่กิจกรรมตามกำหนดการ คุณอาจจำเป็นต้องได้รับข้อมูลสองสามวัน มีซอฟต์แวร์หลายประเภทที่สามารถวิเคราะห์ไฟล์เหล่านี้ได้

ด้านล่างนี้เป็นตัวอย่างที่โจมตีเซิร์ฟเวอร์ Apache:

50.56.92.47 – – [31/พฤษภาคม/2012:12:21:17 +0100] “GET” – “/wp-content/themes/wp-theme/help.php” – “404” “-” “Mozilla/ 5.0 (เข้ากันได้; Googlebot/2.1; +http://www.google.com/bot.html)” – www.hit-example.com

จากที่นี่ คุณสามารถใช้เครื่องมือต่างๆ (เช่น OnCrawl) เพื่อวิเคราะห์ไฟล์บันทึกและระบุปัญหา เช่น Google รวบรวมข้อมูลหน้า PPC หรือคำขอ GET ที่ไม่จำกัดไปยังสคริปต์ JSON ซึ่งทั้งสองอย่างนี้สามารถแก้ไขได้ภายในไฟล์ Robots.txt

งบประมาณการรวบรวมข้อมูลเป็นปัญหาเมื่อใด

งบประมาณการรวบรวมข้อมูลไม่ใช่ปัญหาเสมอไป หากไซต์ของคุณมี URL จำนวนมากและมีการจัดสรร "การรวบรวมข้อมูล" ตามสัดส่วนตามสัดส่วน คุณก็ไม่เป็นไร แต่ถ้าเว็บไซต์ของคุณมี 200,000 URL และ Google รวบรวมข้อมูลเพียง 2,000 หน้าในเว็บไซต์ของคุณในแต่ละวัน Google อาจใช้เวลาถึง 100 วันจึงจะสังเกตเห็น URL ใหม่หรือ URL ที่รีเฟรช ซึ่งตอนนี้เป็นปัญหาแล้ว

การทดสอบสั้นๆ เพื่อดูว่างบประมาณการรวบรวมข้อมูลของคุณเป็นปัญหาหรือไม่คือการใช้ Google Search Console และจำนวน URL ในเว็บไซต์ของคุณเพื่อคำนวณ 'จำนวนการรวบรวมข้อมูล'

  • ก่อนอื่น คุณต้องกำหนดว่าเว็บไซต์ของคุณมีกี่หน้า คุณสามารถทำได้โดยทำการค้นหาเว็บไซต์ เช่น oncrawl.com มีประมาณ 512 หน้าในดัชนี:

  • ประการที่สอง คุณต้องไปที่บัญชี Google Search Console แล้วไปที่ Crawl จากนั้นไปที่ Crawl Stats หากบัญชี GSC ของคุณไม่ได้รับการกำหนดค่าอย่างเหมาะสม คุณอาจไม่มีข้อมูลนี้
  • ขั้นตอนที่สามคือการใช้ตัวเลขเฉลี่ย "หน้าที่รวบรวมข้อมูลต่อวัน" (ค่ากลาง) และจำนวน URL ทั้งหมดบนเว็บไซต์ของคุณแล้วหารด้วย:

เพจทั้งหมดบนไซต์ / เพจเฉลี่ยที่รวบรวมข้อมูลต่อวัน = X

ถ้า X มากกว่า 10 คุณต้องดูที่การเพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูลของคุณ ถ้าน้อยกว่า 5 ไชโย คุณไม่จำเป็นต้องอ่านต่อ

เพิ่มประสิทธิภาพความสามารถในการ 'งบประมาณการรวบรวมข้อมูล' ของคุณ

คุณสามารถมีงบประมาณรวบรวมข้อมูลได้มากที่สุดบนอินเทอร์เน็ต แต่ถ้าคุณไม่รู้วิธีใช้งาน มันก็ไร้ค่า

ใช่ มันเป็นถ้อยคำที่เบื่อหู แต่มันเป็นเรื่องจริง หาก Google รวบรวมข้อมูลทุกหน้าในไซต์ของคุณและพบว่าหน้าส่วนใหญ่ซ้ำกัน ว่างเปล่า หรือโหลดช้าจนทำให้เกิดข้อผิดพลาดหมดเวลา งบประมาณของคุณก็อาจลดลงเช่นกัน

ในการใช้ประโยชน์สูงสุดจากงบประมาณการรวบรวมข้อมูลของคุณ (แม้จะไม่มีการเข้าถึงไฟล์บันทึกของเซิร์ฟเวอร์) คุณต้องแน่ใจว่าคุณดำเนินการดังต่อไปนี้:

ลบหน้าที่ซ้ำกัน

บ่อยครั้งในไซต์อีคอมเมิร์ซ เครื่องมือเช่น OpenCart สามารถสร้าง URL ได้หลายรายการสำหรับผลิตภัณฑ์เดียวกัน ฉันเคยเห็นผลิตภัณฑ์เดียวกันใน URL 4 รายการซึ่งมีโฟลเดอร์ย่อยที่แตกต่างกันระหว่างปลายทางและราก

คุณไม่ต้องการให้ Google จัดทำดัชนีมากกว่าหนึ่งเวอร์ชันในแต่ละหน้า ดังนั้นตรวจสอบให้แน่ใจว่าคุณมีแท็กตามรูปแบบบัญญัติที่ชี้ Google ไปยังเวอร์ชันที่ถูกต้อง

แก้ไขลิงค์เสีย

ใช้ Google Search Console หรือซอฟต์แวร์รวบรวมข้อมูล และค้นหาลิงก์ภายในและภายนอกที่เสียทั้งหมดในเว็บไซต์ของคุณแล้วแก้ไข การใช้ 301s นั้นยอดเยี่ยม แต่ถ้าเป็นลิงก์การนำทางหรือลิงก์ส่วนท้ายที่ใช้งานไม่ได้ เพียงเปลี่ยน URL ที่ชี้ไปโดยไม่ต้องพึ่งพา 301

อย่าเขียนบางหน้า

หลีกเลี่ยงการมีหน้าเว็บจำนวนมากบนไซต์ของคุณซึ่งให้คุณค่าแก่ผู้ใช้หรือเครื่องมือค้นหาเพียงเล็กน้อยหรือไม่มีเลย หากไม่มีบริบท Google พบว่าการจัดประเภทหน้าทำได้ยาก ซึ่งหมายความว่าไม่มีส่วนเกี่ยวข้องใดๆ ต่อความเกี่ยวข้องโดยรวมของเว็บไซต์ และเป็นเพียงผู้โดยสารที่ใช้งบประมาณในการรวบรวมข้อมูลเท่านั้น

ลบ 301 Redirect Chains

การเปลี่ยนเส้นทางลูกโซ่ไม่จำเป็น ยุ่งเหยิง และเข้าใจผิด ห่วงโซ่การเปลี่ยนเส้นทางสามารถทำลายงบประมาณการรวบรวมข้อมูลของคุณได้หลายวิธี เมื่อ Google เข้าถึง URL และเห็น 301 นั้นไม่ได้ติดตามทันทีเสมอไป แต่จะเพิ่ม URL ใหม่ลงในรายการแล้วติดตามแทน

นอกจากนี้ คุณต้องตรวจสอบให้แน่ใจว่าแผนผังเว็บไซต์ XML ของคุณ (และแผนผังเว็บไซต์ HTML) นั้นถูกต้อง และหากเว็บไซต์ของคุณมีหลายภาษา ให้ตรวจสอบว่าคุณมีแผนผังเว็บไซต์สำหรับแต่ละภาษาของเว็บไซต์ คุณต้องใช้สถาปัตยกรรมไซต์อัจฉริยะ สถาปัตยกรรม URL และเพิ่มความเร็วหน้าเว็บของคุณ การวางไซต์ของคุณไว้เบื้องหลัง CDN เช่น CloudFlare ก็จะเป็นประโยชน์เช่นกัน

TL;DR:

การรวบรวมข้อมูลงบประมาณเช่นเดียวกับงบประมาณใดๆ เป็นโอกาส ในทางทฤษฎี คุณกำลังใช้งบประมาณเพื่อซื้อเวลาที่ Googlebot, Bingbot และ Slurp ใช้จ่ายในไซต์ของคุณ เป็นสิ่งสำคัญที่คุณจะต้องใช้เวลานี้ให้เกิดประโยชน์สูงสุด

การเพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูลไม่ใช่เรื่องง่าย และแน่นอนว่าไม่ใช่ 'การชนะอย่างรวดเร็ว' หากคุณมีไซต์ขนาดเล็กหรือไซต์ขนาดกลางที่ได้รับการดูแลเป็นอย่างดี คุณก็ไม่มีปัญหา หากคุณมียักษ์ใหญ่ของไซต์ที่มี URL นับหมื่นรายการ และไฟล์บันทึกของเซิร์ฟเวอร์ทำงานเกินหน้าคุณ – อาจถึงเวลาที่ต้องโทรหาผู้เชี่ยวชาญ

เริ่มการทดลองใช้ฟรีของคุณ