[Webinar Digest] SEO ใน Orbit: Rankbrain, AI, แมชชีนเลิร์นนิง และอนาคตของการค้นหา
เผยแพร่แล้ว: 2019-11-13การสัมมนาผ่านเว็บเรื่อง Rankbrain, AI, แมชชีนเลิร์นนิง และอนาคตของการค้นหา เป็นส่วนหนึ่งของ SEO ในซีรี่ส์ Orbit และออกอากาศเมื่อวันที่ 19 มิถุนายน 2019 ในตอนนี้ Bill Slawski ใช้ประโยชน์จากความรู้ของเขาเกี่ยวกับสิทธิบัตรของ Google และการทำงานของการค้นหาเพื่อทำลาย ลงอัลกอริธึมการค้นหาที่น่าจะใช้ในปัจจุบันและสันนิษฐานว่าอาจมีลักษณะอย่างไรภายใต้ประทุนของ Google เวอร์ชันอนาคต เข้าร่วมกับเราในขณะที่เราสำรวจอนาคตของ SEO ด้านเทคนิค
SEO ใน Orbit คือชุดการสัมมนาผ่านเว็บชุดแรกที่ส่ง SEO สู่อวกาศ ตลอดทั้งซีรีส์ เราได้พูดคุยถึงปัจจุบันและอนาคตของเทคนิค SEO กับผู้เชี่ยวชาญ SEO ที่เก่งที่สุดบางคน และส่งเคล็ดลับยอดนิยมของพวกเขาไปยังพื้นที่ในวันที่ 27 มิถุนายน 2019
ดูย้อนหลังได้ที่นี่:
นำเสนอ Bill Slawski
Bill Slawski ผู้เชี่ยวชาญด้านสิทธิบัตรเครื่องมือค้นหาที่เรียนรู้ด้วยตนเองเป็นผู้อำนวยการด้าน SEO ที่ Go Fish Digital และบล็อกเกอร์ที่ SEO by the Sea ในคำพูดของ Bill: “ฉันไม่ใช่นักวิทยาศาสตร์คอมพิวเตอร์ และไม่ใช่นักคณิตศาสตร์ ฉันจบปริญญาตรีสาขาภาษาอังกฤษและนิติศาสตร์บัณฑิต ฉันได้อ่านสิทธิบัตรจากเสิร์ชเอ็นจิ้นตั้งแต่ประมาณปี 2548 เพื่อเรียนรู้เกี่ยวกับสิ่งที่พวกเขาพูดถึงเกี่ยวกับการค้นหา ผู้ค้นหา และเว็บ สิทธิบัตรหลายฉบับครอบคลุมอัลกอริธึมที่มุ่งแก้ปัญหาเฉพาะ และฉันพบว่ามีประโยชน์มากมายในการดำเนินการ SEO”
ตอนนี้โฮสต์โดย Francois Goube ผู้ประกอบการต่อเนื่องและผู้ร่วมก่อตั้งและ CEO ของ OnCrawl เขาได้ก่อตั้งบริษัทหลายแห่งและมีส่วนร่วมอย่างแข็งขันในระบบนิเวศเริ่มต้น เขาหลงใหลในการวิเคราะห์ความหมายและเครื่องมือค้นหา เขาชอบวิเคราะห์สิ่งตีพิมพ์ทางวิทยาศาสตร์ของ Google และเป็นผู้บรรยายประจำในการประชุม SEO
AI และการเรียนรู้ของเครื่องคืออะไร?
คำจำกัดความของ AI มีมากมาย
งานจำนวนมากของ Google มุ่งเน้นไปที่โครงข่ายประสาทเทียม ซึ่งนำไปสู่การทำงานของแมชชีนเลิร์นนิง มันใช้ชุดข้อมูลที่แสดงถึงชุดข้อมูลในอุดมคติ ทำเครื่องหมายเพื่อเน้นคุณลักษณะบางอย่างเกี่ยวกับมัน ที่ใช้ในการฝึกตัวแยกประเภท ข้อมูลเหล่านี้จะหลุดออกจากชุดข้อมูลอื่นๆ เพื่อวิเคราะห์และจัดประเภทข้อมูลใหม่ตามสิ่งที่พวกเขาเรียนรู้จากชุดตัวอย่าง นั่นคือการเรียนรู้ของเครื่อง
พื้นที่ที่ครอบคลุมโดยAI
– ภาษาธรรมชาติ
AI สามารถครอบคลุมพื้นที่ต่างๆ เช่น เข้าใจภาษาธรรมชาติได้ดีขึ้น มีเทคนิคต่างๆ ที่เกี่ยวข้อง และหลายๆ อย่างที่มาจาก Google แสดงให้เห็นสิ่งที่เกี่ยวข้องกับการวิเคราะห์ภาษาธรรมชาติ
- ตอบคำถาม
สิทธิบัตรล่าสุด (ลิงก์) พยายามเติมช่องว่างในคำถามตอบแบบแผน
โดยจะอธิบายว่า Google อาจใช้กราฟความรู้เพื่อทำความเข้าใจว่าคำตอบของคำถามคืออะไร ตัวอย่างเช่น หากมีข้อมูลขาดหายไปหรือข้อมูลไม่ถูกต้องสำหรับเอนทิตี Google อาจพยายามประมาณคำตอบตามข้อมูลที่เกี่ยวข้องกับข้อเท็จจริงที่เกี่ยวข้อง
สิ่งที่น่าสนใจเกี่ยวกับสิทธิบัตรนี้ไม่ใช่ว่า Google ใช้การประมาณเพื่อตอบคำถาม แต่พวกเขากำลังให้คำอธิบายสำหรับการประมาณการ
– การเลียนแบบความคิดของมนุษย์ (โครงข่ายประสาทเทียม)
แมชชีนเลิร์นนิงอิงจาก AI โดยเลียนแบบวิธีการทำงานของความคิดของมนุษย์ เครือข่ายการเรียนรู้ของเครื่องเรียกว่าโครงข่ายประสาทเทียมเนื่องจากสร้างขึ้นเพื่อพยายามจำลองวิธีการทำงานของเซลล์ประสาทในสมอง
Rankbrain
- ความสัมพันธ์กับ Hummingbird และบริบทของคำ
ทั้ง Rankbrain และ Hummingbird เป็นแนวทางในการเขียนข้อความค้นหาใหม่ Hummingbird พยายามทำความเข้าใจบริบทของข้อความค้นหาให้ดีขึ้นโดยดูจากคำทั้งหมดในข้อความค้นหา ก่อนหน้านี้ Google จะดูเฉพาะคำที่อยู่ติดกันเพื่อทำความเข้าใจบริบท นกฮัมมิงเบิร์ดมองข้ามคำพูดที่อยู่ติดกันทันที อาจพิจารณาถึงประโยคทั้งประโยคในคำถามเชิงสนทนาด้วย Hummingbird พยายามใช้คำทั้งหมดในแบบสอบถามร่วมกันเพื่อทำความเข้าใจบริบท
– การเขียนคำค้นหาใหม่ใน Rankbrain โดยใช้วิธีการฝังคำ
Rankbrain ต่างจาก Hummingbird ตรงที่ใช้วิธีการฝังคำ โดยจะตรวจสอบข้อความสั้นๆ และสามารถระบุได้ว่ามีคำที่ขาดหายไปหรือไม่ ทำได้โดยการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่ (200 พันล้านคำ)
– ค้นหาคำที่หายไปในแบบสอบถาม
ตัวอย่างเช่น แบบสอบถาม "ปริศนาอักษรไขว้ New York Times" สามารถตีความได้อย่างถูกต้องว่าไม่มีคำว่า "ปริศนาอักษรไขว้" Rankbrain เพิ่มคำที่หายไปในแบบสอบถามและส่งคืนผลลัพธ์สำหรับปริศนาอักษรไขว้ New York Times ให้กับผู้ค้นหา เนื่องจากนั่นอาจเป็นสิ่งที่พวกเขาต้องการ
– คุณสามารถเพิ่มประสิทธิภาพสำหรับ Rankbrain ได้หรือไม่?
โปรดทราบว่าคุณไม่สามารถเพิ่มประสิทธิภาพหน้าเว็บสำหรับ Rankbrain ได้ SEO บางแห่งได้เขียนบทความโดยบอกว่าคุณทำได้ อย่างไรก็ตาม จากทุกสิ่งที่ Bill ได้เห็นเกี่ยวกับอัลกอริทึมนี้ แสดงว่านี่เป็นกระบวนการเขียนข้อความค้นหาใหม่ ไม่ใช่สิ่งที่ส่งผลต่อการประเมินหน้า
อัลกอริทึมเพิ่มเติมของ Google โดยใช้การเรียนรู้ของเครื่อง
Google ไม่มี "อัลกอริทึม" เดียวที่ขับเคลื่อนเครื่องมือค้นหา มีอัลกอริธึมมากมายที่ช่วยในการทำงาน Rankbrain เป็นหนึ่งในหลายๆ
– การใช้คะแนนคุณภาพภายในหมวดหมู่
ซึ่งอาจหมายความว่า ตัวอย่างเช่น เมื่อ Google พิจารณาว่ามีผลลัพธ์ประเภทข้อมูลจำนวนมากสำหรับข้อความค้นหาหนึ่งๆ แทนที่จะจัดอันดับหน้าเว็บตามคะแนนการดึงข้อมูลหรือการจัดอันดับผู้มีอำนาจ เช่น PageRank พวกเขาอาจพิจารณาหมวดหมู่ จากนั้นอาจให้คะแนนคุณภาพภายในหมวดหมู่เว็บไซต์ สิ่งนี้จะให้ชุดผลลัพธ์ที่หลากหลายยิ่งขึ้น และช่วยให้มั่นใจว่าผลลัพธ์คุณภาพสูงขึ้นสามารถย้ายขึ้นด้านบนสุดของผลลัพธ์ได้เร็วยิ่งขึ้น
– ความนิยมของหน้าสำหรับผลลัพธ์การนำทาง
อัลกอริธึมการจัดอันดับประเภทนี้ยังสนับสนุนหน้าเว็บที่ได้รับความนิยมมากกว่า (หน้าที่ผู้คนมักจะไป) โดยเฉพาะอย่างยิ่งสำหรับผลลัพธ์ประเภทการนำทาง เมื่อผู้ค้นหารู้อยู่แล้วว่าหน้านั้นเป็นสิ่งที่พวกเขาต้องการดู หน้านั้นก็มักจะมีอันดับสูงในกระบวนทัศน์คะแนนคุณภาพหมวดหมู่
– อิทธิพลของ SERP CTR
คะแนนคุณภาพหมวดหมู่ยังแนะนำว่าหน้าเว็บที่มักถูกเลือกในผลการค้นหานั้นเป็นหน้าคุณภาพสูงเช่นกัน และจะอยู่ในอันดับที่สูงภายใต้แนวทางคุณภาพหมวดหมู่นี้ด้วย
อย่างไรก็ตาม แม้ว่าแนวทางคะแนนคุณภาพตามหมวดหมู่จะเป็นการเรียนรู้ของเครื่อง แต่ก็ไม่ใช่ Rankbrain
Rankbrain เพื่อตอบสนองความต้องการด้านสถานการณ์ของผู้ค้นหา
Rankbrain พยายามทำความเข้าใจสิ่งที่อาจขาดหายไปในแบบสอบถาม สิ่งสำคัญที่สุดของ Rankbrain คือการพยายามตอบสนองความต้องการในสถานการณ์ของผู้ค้นหา: บุคคลนี้หมายความว่าอย่างไรเมื่อพวกเขาพิมพ์ข้อความค้นหาลงในช่อง
ข้อความค้นหาคำหลักที่ผ่านมาเทียบกับข้อความค้นหาที่เป็นคำพูดและการสนทนาในปัจจุบัน
หากเรากำลังมุ่งสู่การสอบถามประเภทการพูดและการสนทนา จะมีคำที่เกี่ยวข้องมากกว่าแนวทางคำหลักที่เคยใช้ในอดีต
ในฐานะผู้ค้นหา คุณกำลังพยายามเดาว่าต้องใช้คำใดเพื่อค้นหาข้อมูลที่คุณต้องการ และคุณไม่จำเป็นต้องเดาแบบนี้ หากคุณขอสิ่งที่คุณต้องการ Google ควรจะสามารถวิเคราะห์และกำหนดสิ่งที่คุณน่าจะหมายถึงได้ นี่คือบทบาทของ Rankbrain
แนวทางการประมวลผลภาษาธรรมชาติ
สิ่งหนึ่งที่เราเห็นคือ Google ให้ความสำคัญกับการประมวลผลภาษาที่เป็นธรรมชาติมากขึ้น เราเห็นวิธีการประมวลผลภาษาธรรมชาติปรากฏขึ้น
– การจับคู่ประสาท
Danny Sullivan ทวีตเล็กน้อยเกี่ยวกับบางสิ่งที่เขาเรียกว่าการจับคู่ระบบประสาท
เมื่อไม่กี่เดือนที่ผ่านมา Google ได้ใช้วิธีจับคู่ประสาท –AI เพื่อเชื่อมโยงคำกับแนวคิดได้ดีขึ้น คำพ้องความหมายที่ยอดเยี่ยมในทางใดทางหนึ่ง และส่งผลกระทบต่อ 30% ของข้อความค้นหา ไม่รู้ว่า "เอฟเฟกต์ละคร" คืออะไรเพื่อค้นหา? เราสามารถคิดออกได้ดีขึ้น pic.twitter.com/Qrwp5hKFNz
– Danny Sullivan (@dannysullivan) วันที่ 24 กันยายน 2018
เขากล่าวว่านี่เป็นวิธีในการทำความเข้าใจคำศัพท์ในหน้าและความหมายของคำเหล่านั้นในบริบท เขาได้ยกตัวอย่างว่าคำหนึ่งคำอาจหมายถึงสามหรือสี่สิ่งที่แตกต่างกันอย่างไร ขึ้นอยู่กับว่าคำนั้นอยู่ในตำแหน่งใดในประโยค
– การฝังคำ
Google ได้ออกสิทธิบัตรเกี่ยวกับวิธีการฝังคำ (เช่นที่ใช้ใน Rankbrain เพื่อทำความเข้าใจข้อความค้นหาข้อความสั้น ๆ เหล่านั้น) สำหรับข้อความจำนวนมากขึ้นเช่นหน้าเว็บ
– เฟรมความหมาย
กรอบความหมายคือเมื่อคุณใช้ภาษาในอุดมคติสำหรับบางสถานการณ์ ในแต่ละสถานการณ์ มีบางภาษาที่ใช้ ตัวอย่างเช่น คะแนนในบริบทของการจำนองหรือการซื้ออสังหาริมทรัพย์ไม่มีความหมายเดียวกันกับคะแนนในเกมลูกเต๋าหรือกระดาน
หากคุณเข้าใจกรอบงาน คุณจะสามารถเข้าใจบริบทของคำบนหน้าได้ดียิ่งขึ้น
นอกจากนี้ยังสามารถช่วยแยกความแตกต่างระหว่างคำที่ความหมายแตกต่างกันไปในแต่ละสถานการณ์ ตัวอย่างเช่น “ม้า” ไม่ได้มีความหมายอย่างเดียวกันสำหรับนักขี่ม้าและช่างไม้ สิทธิบัตรอื่นๆ ยังได้สำรวจวิธีการเพิ่มเติมในการทำความเข้าใจความแตกต่างตามบริบทในความหมาย
การใช้แมชชีนเลิร์นนิงเพื่อระบุผู้เขียนตามสไตล์การเขียน
มันค่อนข้างง่ายสำหรับเครื่องที่จะระบุรูปแบบการเขียนของแต่ละบุคคล มีความคล้ายคลึงกันระหว่างการจัดหมวดหมู่เนื้อหานี้กับเนื้อหาเฉพาะเรื่องเนื่องจากรูปแบบที่เป็นมาตรฐานในอุตสาหกรรมต่างๆ เช่น อสังหาริมทรัพย์ กีฬา ฯลฯ
ในฐานะนักเรียนภาษาอังกฤษ บิลวิเคราะห์วรรณกรรมและพิจารณาวิธีต่างๆ ที่ผู้เขียนแสดงออก และเหตุผล
– ผู้เขียนจดสิทธิบัตรโดยใช้ความถี่ในการอ้างอิง
Google มีสิทธิบัตรเกี่ยวกับคะแนนของผู้แต่ง ในการให้คะแนนผู้เขียน ปัจจัยหนึ่งที่นำมาพิจารณาคือความถี่ที่นักเขียนคนอื่นอ้างถึง
– โปรแกรมดู N-Gram ของ Google หนังสือ
Google ทำงานมากมายกับโมเดลภาษา พวกเขาสแกนหนังสือจำนวนมาก โปรแกรมดู N-Gram ช่วยให้คุณเห็นว่าความนิยมของวลีมีวิวัฒนาการอย่างไรในช่วงหลายปีที่ผ่านมา
– สิทธิบัตรคะแนนคุณภาพโดย N. Panda โดยใช้แบบจำลองภาษา
สิทธิบัตรคะแนนคุณภาพโดย N. Panda พูดถึงการใช้ N-grams และการสร้างแบบจำลองภาษาเพื่อทำความเข้าใจคุณภาพของหน้าเว็บโดยพิจารณาจากการเปรียบเทียบกับแบบจำลองภาษาอื่นๆ
นี่เป็นตัวอย่างที่ดีของการเรียนรู้ของเครื่องในเทคโนโลยีเครื่องมือค้นหา เรามีชุดข้อมูลของหน้าที่ให้คะแนนก่อนหน้านี้ และเรากำลังเปรียบเทียบหน้าใหม่กับหน้าตามข้อมูลจากชุดตัวอย่างเดิม เนื่องจากใช้เพื่อกำหนดคุณภาพ หน้าที่มีลักษณะของหน้าที่เขียนดีจากชุดเดิมจึงจะได้คะแนนสูงกว่า
โมเดลภาษาประเภทนี้สามารถใช้เพื่อทำความเข้าใจรูปแบบการเขียนของผู้แต่งที่แตกต่างกันได้
การเรียนรู้ของเครื่องในอนาคตด้วยข้อมูลที่มีโครงสร้าง
นอกจากนี้ แมชชีนเลิร์นนิงยังแสดงให้เห็นชัดเจนว่า Google จัดการเอนทิตีอย่างไร ในด้านการแปล และในลักษณะที่ซินดี้ ครัม (Cindy Krum) ตั้งชื่อว่า Fraggles
– ตอบข้อความและเสริมข้อความ
มีสิทธิบัตรอีกฉบับหนึ่งที่พูดถึงข้อความคำตอบ ซึ่ง Google เสนอกลไกในการใช้ข้อความที่พบในหน้าเว็บเพื่อให้คำตอบสำหรับคำถามต่างๆ ข้อมูลนี้เพิ่งได้รับการปรับปรุงเพื่อให้ดูไม่เฉพาะข้อความเท่านั้น แต่ยังรวมถึงข้อมูลที่มีโครงสร้างที่เสริมข้อความด้วย
– การตรวจสอบข้อเท็จจริงและความสม่ำเสมอ
การใช้ Schema ทำให้เกิดความซ้ำซ้อนในข้อมูล วิธีนี้ทำให้ Google มีวิธีตรวจสอบความสอดคล้องของข้อเท็จจริงข้อมูลบนหน้าเว็บโดยเปรียบเทียบข้อความที่เป็นข้อความกับข้อมูลที่ให้ไว้ในมาร์กอัปที่มีโครงสร้าง
นี่เป็นสิ่งเดียวกับที่เกิดขึ้นบน Google Maps โดยที่ Google จะดูชื่อ ที่อยู่ และหมายเลขโทรศัพท์
ความสม่ำเสมอเป็นระดับความเชื่อมั่นว่าคำตอบอาจมีแนวโน้มที่จะถูกต้องมากกว่า
– หน้าคำถามที่พบบ่อยและหน้าวิธีใช้
ในขณะที่ Google แนะนำหน้าคำถามที่พบบ่อยและการสนับสนุนสคีมาเกี่ยวกับวิธีใช้งาน เราเห็นว่าพวกเขากำลังมุ่งไปสู่วิธีการทำให้เจ้าของไซต์สร้างใน Schema ที่สะท้อนถึงสิ่งที่พวกเขาอาจใส่ในข้อความบนหน้าเว็บ
กลยุทธ์ในการทำความเข้าใจบริบทบนหน้าเว็บ
Google ได้ดำเนินการตามขั้นตอนอื่นๆ เพื่อพยายามทำความเข้าใจเนื้อหาภายในหน้าเว็บให้ดีขึ้น นี่คือบางส่วน:
– การใช้ฐานความรู้และเงื่อนไขบริบท
สิทธิบัตรของ Google ระบุว่าอาจดูที่ฐานความรู้และอาจรวบรวมคำจำกัดความของเงื่อนไขบริบทจากฐานความรู้เหล่านั้น จากนั้นพวกเขาอาจมองหาการมีอยู่ของเงื่อนไขบริบทเหล่านี้บนหน้าเว็บเพื่อช่วยกำหนดว่าความหมายขึ้นอยู่กับบริบทของคำใดที่น่าจะเป็นไปได้มากที่สุด
ดังนั้น หน้าเกี่ยวกับม้า (สัตว์) อาจมีคำว่า "อานม้า" ในขณะที่หน้าเกี่ยวกับม้าประเภทอื่นๆ อาจมีคำว่า "ช่างไม้"
– การจัดทำดัชนีตามวลี
อีกแนวทางหนึ่งในการเรียนรู้เชิงความหมายเพื่อทำความเข้าใจหัวข้อในหน้าตั้งแต่ปี 2004 หรือประมาณนั้น การจัดทำดัชนีแบบวลีไม่เพียงแต่เก่าเท่านั้น แต่ยังเป็นเรื่องของสิทธิบัตรอย่างน้อย 20 ฉบับและได้รับการปรับปรุงและแก้ไขหลายครั้ง ทั้งหมดนี้บ่งชี้ให้ Bill ทราบว่าการจัดทำดัชนีแบบวลีเป็นสิ่งที่มีความสำคัญอย่างมากในอัลกอริทึมของ Google
– การสร้างดัชนีกลับหัวของวลีทำนายหัวข้อ
สิทธิบัตรฉบับหนึ่งที่เกี่ยวข้องกับการจัดทำดัชนีแบบวลีอธิบายถึงการสร้างดัชนีแบบกลับด้านของวลีที่ปรากฏบนหน้าเว็บและเป็นการคาดเดาหัวข้อต่างๆ ตัวอย่างจะเป็นวลีเช่น "ประธานาธิบดีแห่งสหรัฐอเมริกา" "เลขาธิการแห่งรัฐ" หรือ "สัมภาษณ์โรสการ์เด้น" ที่คาดการณ์หัวข้อความหมายของ "ทำเนียบขาว"
ความรู้เรื่อง Webmaster subject ใน Schema
Google กำลังพัฒนาการใช้สิ่งต่าง ๆ เช่น Schema แต่คำจำกัดความของประเภทของสิ่งต่าง ๆ ที่ Schema อธิบายนั้นมีให้โดยเว็บมาสเตอร์ ด้วยวิธีนี้ เว็บมาสเตอร์สามารถมีส่วนร่วมในการสร้างกราฟความรู้พร้อมกับเครื่องมือค้นหา
ตัวอย่างเช่น Google ได้เพิ่ม "ความรู้" เป็นส่วนหนึ่งของสคีมา อย่างไรก็ตาม เว็บมาสเตอร์คือผู้ที่ระบุว่าทนายความสามารถรู้เกี่ยวกับกฎหมายทหารเรือหรือกฎหมายสิทธิบัตร ซึ่งจะช่วยกรอกกราฟความรู้
การแสดงความรู้โดยใช้เครื่องเป็นความพยายามร่วมกัน
[กรณีศึกษา] การจัดการการรวบรวมข้อมูลบอทของ Google
การพัฒนาการค้นหาและแนวทางปฏิบัติ SEO ที่ล้าสมัย
– คำซ้ำในข้อความแสดงแทน
การบอก Google ว่าต้องมีการตั้งชื่อรูปถ่ายของบุคคลสองครั้งไม่ได้ช่วยให้ Google เข้าใจถึงสองครั้งเช่นกัน เป็นไปได้ด้วยซ้ำว่าอาจลดการประมาณค่าของหน้าเว็บของเครื่องมือค้นหา
– LSI มีไว้สำหรับฐานข้อมูลสแตติกขนาดเล็ก
ผู้ผลิตเครื่องมือแนะนำอยู่เสมอว่า SEO ใช้เทคนิคแบบเก่า ตัวอย่างหนึ่งคือการสร้างดัชนีความหมายแฝง (LSI) ซึ่งพัฒนาขึ้นในปี 1989 จัดทำขึ้นสำหรับฐานข้อมูลขนาดเล็กแบบสแตติกซึ่งไม่ใช่ขนาดของเว็บ และไม่เติบโตในอัตราที่เว็บมี
ทุกครั้งที่คุณต้องการใช้ LSI คุณต้องมีฐานข้อมูลเวอร์ชันล่าสุด หากคุณยังคงเพิ่มข้อมูลไปยังคลังข้อมูล จะต้องเรียกใช้ข้อมูลอีกครั้ง ซึ่งหมายความว่าไม่มีประโยชน์มากสำหรับเว็บ
– TF-IDF ใช้งานได้กับการเข้าถึงคลังข้อมูลแบบเต็มเท่านั้น
TF-IDF (ความถี่เอกสารดัชนีความถี่ระยะ) เป็นอีกตัวอย่างหนึ่ง วิธีนี้ใช้ได้ผลดีที่สุดหากคุณมีสิทธิ์เข้าถึงคลังข้อมูลทั้งหมดที่จัดทำดัชนี ในกรณีนี้คือเวิลด์ไวด์เว็บ คุณใช้ TF-IDF เมื่อคุณต้องการทราบว่าคำใดเป็นคำที่พบบ่อยที่สุด และคำใดเป็นคำหายากในคลังข้อมูลทั้งหมด แต่ถ้าคุณใช้เฉพาะคลังข้อมูลของหน้าการจัดอันดับสิบอันดับแรกสำหรับคำบางคำแทนที่จะเป็นทั้งเว็บ คุณจะไม่สามารถกำหนดความถี่ของคำที่แท้จริงได้
ซึ่งอาจส่งผลร้ายแรงต่อความถูกต้องของการวิเคราะห์ของคุณ
ความคาดหวังของผู้ดูแลเว็บและความสามารถของ Google: ความต้องการการสื่อสารจาก Google
แม้จะมีการประกาศเมื่อเร็วๆ นี้ แต่เราไม่รู้จริงๆ ว่ามาร์กอัปการแบ่งหน้าไม่เป็นประโยชน์สำหรับเครื่องมือค้นหา
แม้ว่ามาร์กอัปการแบ่งหน้าจะไม่ถูกใช้เพื่อจัดการเนื้อหาที่ซ้ำกันบนหน้าที่ใส่เลขหน้าอีกต่อไป แต่เราก็มีความคาดหวังบางประการจาก Google พวกเขาควรจะสามารถเข้าใจได้เมื่อหน้าอยู่ในชุดข้อมูล การประกาศเช่นนี้เผยให้เห็นถึงความยากลำบากในการรู้ว่า Google ดีหรือแย่เพียงใดในสิ่งที่พวกเขาทำ
การใช้คำที่มักใช้ร่วมกัน
เคล็ดลับทางเทคนิคที่ชื่นชอบของ Bill คือการดูคำที่มักใช้ร่วมกันซึ่งมีอันดับสูงสำหรับคำบางคำ และทำให้แน่ใจว่าเขาใช้คำเหล่านั้นในเนื้อหา ทั้งในเนื้อหาและใน anchor text ที่ชี้จากหน้าของเขาไปยังหน้าที่เกี่ยวข้อง วิธีนี้ใช้ประโยชน์จาก "การกดจุดยึด" ซึ่งโปรแกรมค้นหาถือว่าทำเป็น "ลิงก์ผู้เชี่ยวชาญ"
กลยุทธ์นี้มาจากการจัดทำดัชนีแบบวลี
– ความน่าจะเป็นทางสถิติของการเกิดขึ้นร่วมของวลี
สิทธิบัตรการจัดทำดัชนีแบบวลีได้รับการอัปเดตเมื่อประมาณสองปีที่แล้ว แนวทางนี้ใช้จำนวนคำที่เกี่ยวข้องที่ปรากฏบนเพจเพื่อจัดอันดับเพจ
อย่างไรก็ตาม หากมีข้อความที่เกี่ยวข้องกันปรากฏบนหน้าเว็บมากกว่าหนึ่งคำที่น่าจะเป็นไปได้ทางสถิติ ก็สามารถทำเครื่องหมายว่าเป็นสแปมได้ ตัวอย่างเช่น หากคุณคัดลอกหน้าเว็บจำนวนมากในหัวข้อหนึ่งๆ และใส่ทั้งหมดลงในหน้าเดียว คุณจะมีคำที่เกี่ยวข้องกันมากเกินไปที่จะเกิดขึ้นเองตามธรรมชาติ
ซึ่งเข้ากันได้ดีกับวิธีที่ Bill ทำการวิจัยคำหลัก เขาดูหน้าที่คล้ายกันและสร้างรายการวลีหรือคำที่คล้ายกันซึ่งมักเกิดขึ้น เขาอาจพยายามใช้บางอันบนหน้าเว็บของเขาเอง แม้ว่าเขาจะไม่ได้พยายามจัดอันดับสำหรับพวกเขาก็ตาม สิ่งนี้สร้างเนื้อหาที่เกี่ยวข้องกับคำหลักที่เขาต้องการจัดอันดับ
LSI เทียบกับการใช้คำพ้องความหมายหรือเนื้อหาที่เกี่ยวข้องเชิงความหมาย
โฆษณาเกี่ยวกับ LSI เป็นหนึ่งในหัวข้อที่ Bill ไม่ค่อยชอบ ส่วนหนึ่งเป็นเพราะคำนั้นทำให้เข้าใจผิด สิ่งที่หลายคนแนะนำเมื่อพูดถึง LSI ไม่เกี่ยวข้องกับการจัดทำดัชนีความหมายแฝง แต่เป็นเพียงการแนะนำให้เพิ่มคำพ้องความหมายหรือเนื้อหาที่เกี่ยวข้องกับความหมายลงในหน้า
ดัชนีกลับด้านของการทำดัชนีแบบวลีและฐานความรู้ที่สามารถให้เงื่อนไขบริบทระบุว่ามีคำศัพท์และแหล่งที่มาที่คุณสามารถเข้าไปหาได้ เพื่อค้นหาคำที่อาจเป็นประโยชน์หากคุณกำลังมองหาคำที่เกิดร่วมในระดับสูงอย่างเคร่งครัด หน้าสำหรับคำหลักของคุณ
คำที่ดูเหมือนคำพ้องความหมายบางครั้งอาจไม่ใช่คำในการประเมินของ Google
การสร้างดัชนีอย่างรวดเร็วด้วยเครื่องมือส่ง URL
เครื่องมือส่ง URL ใน Google Search Console เวอร์ชันใหม่เป็นวิธีที่รวดเร็วมากในการจัดทำดัชนีหน้าเว็บ บิลได้เห็นการอัปเดตที่เผยแพร่ไปยัง SERP ภายในหนึ่งหรือสองนาที
ความหวังของบิลสำหรับมาร์กอัปในอนาคต: ข้อมูลเพิ่มเติมเกี่ยวกับสิทธิบัตร
คำถามจากผู้ชม: มาร์กอัปสคีมาใดที่คุณต้องการเพิ่มในอนาคต
เนื่องจากเขาเขียนเกี่ยวกับสิทธิบัตรเป็นจำนวนมาก บิลจึงต้องการเห็นวิธีที่ดีกว่าในการจับภาพคุณลักษณะเฉพาะของสิทธิบัตร คุณลักษณะบางอย่างเหล่านี้ ได้แก่ :
- คลาส (สิ่งที่สิทธิบัตรมีวัตถุประสงค์เพื่อกล่าวถึง)
- ชื่อสิทธิบัตร แม้ว่า "หน่วยงานหลักของหน้า" อาจครอบคลุมคุณลักษณะนี้
เนื่องจาก Google อนุญาตให้คุณค้นหาตามคุณสมบัติของ Schema ได้ ขั้นสุดท้ายก็คือสามารถปรับปรุงการค้นหาสิทธิบัตร เพื่อให้ผู้คนสามารถขอดูสิทธิบัตรที่ครอบคลุมบางหมวดหมู่ได้
Answer Engine Optimization คืออนาคตของการค้นหาใช่หรือไม่
คำถามจากผู้ชม: คุณคิดว่า SEO จะกลายเป็น AEO ในอนาคตหรือไม่?
Bill เชื่อว่า SEO เป็น AEO ในทางใดทางหนึ่ง
– ข้อบ่งชี้ที่เก่ากว่าของ Google เป็นเครื่องมือตอบ
เราไม่จำเป็นต้องผ่านวิวัฒนาการ มีข้อบ่งชี้อายุ 15 ปีที่ Google กำลังมุ่งไปในทิศทางนี้ เช่น:
- 2004: ฟีเจอร์พจนานุกรมให้ผู้ใช้ค้นหาความหมายของคำ
- 2005: บล็อกโพสต์ "ข้อเท็จจริงเท่านั้น" ที่แสดงตัวอย่างข้อมูลตัวอย่างแรกหรือคำตอบโดยตรงที่ไม่พอใจโดยการให้ลิงก์สีน้ำเงิน 10 ลิงก์ แต่ต้องการให้ตอบกลับด้วยข้อความ
– Sergey Brin: สิทธิบัตรสำหรับอัลกอริทึมเพื่อทำความเข้าใจข้อเท็จจริงและความสัมพันธ์ระหว่างข้อเท็จจริง
ข้อบ่งชี้อีกประการหนึ่งว่า Google เป็นเครื่องมือตอบคำถามไม่มีอะไรใหม่คือสิทธิบัตรโดย Sergey Brin เกี่ยวกับอัลกอริทึมเพื่อทำความเข้าใจข้อเท็จจริงและความสัมพันธ์ระหว่างข้อเท็จจริง สิทธิบัตรนี้ประกอบด้วยหนังสือ 5 เล่ม ชื่อหนังสือ ผู้จัดพิมพ์ ผู้แต่ง และอื่นๆ
ทฤษฎีคือว่าบอทจะรวบรวมข้อมูลเว็บเพื่อค้นหาหนังสือเหล่านี้และ–
[การหยุดชะงักโดย OK Google]
– ลายน้ำเสียง
นอกจากนี้ยังมีแนวคิดเรื่องลายน้ำเสียงที่ใช้ประโยชน์จากความถี่สูงพิเศษ พวกเขาจะอยู่นอกขอบเขตของการได้ยินของมนุษย์ แต่สุนัขและคอมพิวเตอร์จะสามารถระบุได้ การทำเช่นนี้อาจทำให้ผู้ให้บริการหลายรายติดตามข้อเท็จจริงที่ว่าคุณเคยได้ยินโฆษณาที่มีลายน้ำและอาจสนใจผลิตภัณฑ์ดังกล่าว
สิ่งนี้มีมาอย่างน้อยห้าปีแล้ว และไม่ใช่สิ่งที่ได้รับการกล่าวถึงใน SEO
เคล็ดลับยอดนิยม
“มีข้อมูลเท็จมากมายเกี่ยวกับหัวข้อต่างๆ เช่น RankBrain, Neural Matching และ Machine Learning บนเว็บ บางส่วนรวมถึงข้อเท็จจริงที่ค้นคว้าอย่างรอบคอบผสมกับข้อมูลที่ผิด ดังนั้นควรระมัดระวังเกี่ยวกับสิ่งที่คุณพึ่งพิง”
SEO ใน Orbit ไปสู่อวกาศ
หากคุณพลาดการเดินทางสู่อวกาศในวันที่ 27 มิถุนายน ติดตามได้ที่นี่และค้นพบเคล็ดลับทั้งหมดที่เราส่งไปในอวกาศ