การจัดทำดัชนีความหมายแฝงคืออะไรและทำงานอย่างไร

เผยแพร่แล้ว: 2020-04-02

Latent Semantic Indexing (LSI) เป็นสาเหตุให้เกิดการโต้เถียงกันในหมู่นักการตลาดการค้นหา Google คำว่า 'การจัดทำดัชนีความหมายแฝง' และคุณจะพบทั้งผู้สนับสนุนและผู้คลางแคลงใจในระดับที่เท่าเทียมกัน ไม่มีฉันทามติที่ชัดเจนเกี่ยวกับประโยชน์ของการพิจารณา LSI ในบริบทของการตลาดผ่านเครื่องมือค้นหา หากคุณไม่คุ้นเคยกับแนวคิดนี้ บทความนี้จะสรุปการอภิปรายเกี่ยวกับ LSI ดังนั้นคุณหวังว่าจะเข้าใจความหมายสำหรับกลยุทธ์ SEO ของคุณ

การจัดทำดัชนีความหมายแฝงคืออะไร?

LSI เป็นกระบวนการที่พบในการประมวลผลภาษาธรรมชาติ (NLP) NLP เป็นชุดย่อยของภาษาศาสตร์และวิศวกรรมสารสนเทศ โดยเน้นที่วิธีที่เครื่องตีความภาษามนุษย์ ส่วนสำคัญของการศึกษานี้คือความหมายเชิงการแจกแจง โมเดลนี้ช่วยให้เราเข้าใจและจำแนกคำที่มีความหมายตามบริบทคล้ายกันภายในชุดข้อมูลขนาดใหญ่

LSI พัฒนาขึ้นในทศวรรษ 1980 ใช้วิธีการทางคณิตศาสตร์ที่ทำให้การดึงข้อมูลมีความแม่นยำมากขึ้น วิธีนี้ทำงานโดยระบุความสัมพันธ์ตามบริบทที่ซ่อนอยู่ระหว่างคำ อาจช่วยให้คุณแยกแยะได้ดังนี้:

  • แฝง → ซ่อนเร้น
  • ความหมาย → ความสัมพันธ์ระหว่างคำ
  • การทำดัชนี → การดึงข้อมูล

การจัดทำดัชนีความหมายแฝงทำงานอย่างไร

LSI ทำงานโดยใช้แอปพลิเคชันบางส่วนของ Singular Value Decomposition (SVD) SVD คือการดำเนินการทางคณิตศาสตร์ที่ลดขนาดเมทริกซ์ไปยังส่วนประกอบต่างๆ เพื่อการคำนวณที่ง่ายและมีประสิทธิภาพ

เมื่อวิเคราะห์สตริงคำ LSI จะลบคำสันธาน คำสรรพนาม และกริยาทั่วไป หรือที่เรียกว่าคำหยุด สิ่งนี้แยกคำที่ประกอบด้วย 'เนื้อหา' หลักของวลี ต่อไปนี้คือตัวอย่างคร่าวๆ ของลักษณะที่ปรากฏ:

คำเหล่านี้จะถูกวางไว้ใน Term Document Matrix (TDM) TDM คือตาราง 2 มิติที่แสดงความถี่ที่แต่ละคำ (หรือคำศัพท์) เฉพาะเกิดขึ้นในเอกสารภายในชุดข้อมูล

จากนั้นใช้ฟังก์ชันการชั่งน้ำหนักกับ TDM ตัวอย่างง่ายๆ คือการจัดประเภทเอกสารทั้งหมดที่มีคำที่มีค่า 1 และทั้งหมดที่ไม่มีค่า 0 เมื่อคำเกิดขึ้นด้วยความถี่ทั่วไปเดียวกันในเอกสารเหล่านี้ จะเรียกว่า co-occurrence ด้านล่างนี้ คุณจะพบตัวอย่างพื้นฐานของ TDM และวิธีประเมินการเกิดขึ้นร่วมในหลายวลี:

การใช้ SVD ช่วยให้เราสามารถประมาณรูปแบบการใช้คำในเอกสารทั้งหมดได้ เวกเตอร์ SVD ที่ผลิตโดย LSI ทำนายความหมายได้แม่นยำกว่าการวิเคราะห์คำศัพท์แต่ละคำ ในที่สุด LSI สามารถใช้ความสัมพันธ์ระหว่างคำเพื่อทำความเข้าใจความรู้สึกหรือความหมายในบริบทเฉพาะได้ดีขึ้น

[กรณีศึกษา] ขับเคลื่อนการเติบโตในตลาดใหม่ด้วย SEO บนหน้าเว็บ

เมื่อ Springly เริ่มมองหาการขยายไปสู่ตลาดอเมริกาเหนือ SEO ในหน้าได้รับการระบุว่าเป็นหนึ่งในกุญแจสู่การเริ่มต้นที่ประสบความสำเร็จในตลาดใหม่ ค้นหาวิธีเปลี่ยนจาก 0 ไปสู่ความสำเร็จด้วย SEO ทางเทคนิคสำหรับกลยุทธ์เนื้อหาของคุณ
อ่านกรณีศึกษา

Latent Semantic Indexing เกี่ยวข้องกับ SEO อย่างไร?

ในช่วงหลายปีที่ผ่านมา Google พบว่าเครื่องมือค้นหากำลังจัดอันดับเว็บไซต์ตามความถี่ของคำหลักหนึ่งๆ อย่างไรก็ตาม การดำเนินการนี้ไม่ได้รับประกันผลการค้นหาที่เกี่ยวข้องมากที่สุด Google เริ่มจัดอันดับเว็บไซต์ที่พวกเขาพิจารณาว่าเป็นผู้ชี้ขาดข้อมูลที่เชื่อถือได้

เมื่อเวลาผ่านไป อัลกอริธึมของ Google จะกรองเว็บไซต์ที่มีคุณภาพต่ำและไม่เกี่ยวข้องออกด้วยความแม่นยำที่มากขึ้น ดังนั้น นักการตลาดจึงต้องเข้าใจความหมายเบื้องหลังการค้นหา แทนที่จะอาศัยคำที่ถูกต้องแม่นยำ นี่คือเหตุผลที่ Roger Montti อธิบาย LSI ว่าเป็น "วงล้อฝึกอบรมสำหรับเครื่องมือค้นหา" ในบทความเกี่ยวกับความเชื่อ SEO ที่ล้าสมัย และเสริมว่า LSI มี "ความเกี่ยวข้องเพียงเล็กน้อยหรือไม่มีเลยกับการจัดอันดับเว็บไซต์ในปัจจุบันของเครื่องมือค้นหา"

ความหมายของคำค้นหามีความเชื่อมโยงอย่างใกล้ชิดกับเจตนาเบื้องหลัง Google ดูแลเอกสารที่เรียกว่าหลักเกณฑ์ผู้ประเมินคุณภาพการค้นหา ในหลักเกณฑ์เหล่านี้ พวกเขาแนะนำหมวดหมู่ที่เป็นประโยชน์สี่หมวดหมู่สำหรับความตั้งใจของผู้ใช้:

  • Know Query – หมายถึงการค้นหาข้อมูลเกี่ยวกับหัวข้อ ตัวแปรของคำถามนี้คือ 'Know Simple' ซึ่งเป็นคำที่ผู้ใช้ค้นหาโดยคำนึงถึงคำตอบเฉพาะในใจ
  • ทำแบบสอบถาม – สิ่งนี้สะท้อนถึงความปรารถนาที่จะมีส่วนร่วมในกิจกรรมเฉพาะ เช่น การซื้อหรือดาวน์โหลดออนไลน์ ข้อความค้นหาทั้งหมดเหล่านี้สามารถกำหนดได้ด้วยความรู้สึกของ 'การโต้ตอบ'
  • แบบสอบถามเว็บไซต์ – นี่คือเวลาที่ผู้ใช้กำลังมองหาเว็บไซต์หรือหน้าที่เฉพาะเจาะจง การค้นหาเหล่านี้บ่งบอกถึงการรับรู้ถึงเว็บไซต์หรือแบรนด์ใดเว็บไซต์หนึ่งก่อน
  • การสืบค้นแบบเข้า พบด้วยตนเอง – ผู้ใช้กำลังค้นหาสถานที่ตั้งทางกายภาพ เช่น ร้านค้าที่มีหน้าร้านจริงหรือร้านอาหาร

ทฤษฎีเบื้องหลัง LSI – การกำหนดความหมายตามบริบทของคำภายในวลี – ทำให้ Google มีความได้เปรียบในการแข่งขัน อย่างไรก็ตาม แนวคิดนี้เริ่มแพร่หลายว่า 'คีย์เวิร์ด LSI' เป็นตั๋วทองสู่ความสำเร็จของ SEO

'คีย์เวิร์ด LSI' มีจริงหรือไม่

สิ่งพิมพ์ที่มีชื่อเสียงจำนวนมากยังคงสนับสนุนคำหลัก LSI อย่างมั่นคง ทว่าแหล่งข่าวหลายแห่ง เช่น John Mueller นักวิเคราะห์แนวโน้มผู้ดูแลเว็บของ Google ระบุว่าสิ่งเหล่านี้เป็นตำนาน แหล่งข้อมูลเหล่านี้เริ่มยกประเด็นต่อไปนี้:

  • LSI ได้รับการพัฒนาก่อนเวิลด์ไวด์เว็บและไม่ได้ตั้งใจที่จะนำไปใช้กับชุดข้อมูลขนาดใหญ่และไดนามิกดังกล่าว
  • สิทธิบัตรของสหรัฐอเมริกาเกี่ยวกับ Latent Semantic Indexing ซึ่งมอบให้กับองค์กรที่ชื่อ Bell Communications Research Inc. ในปี 1989 จะหมดอายุในปี 2008 ดังนั้น ตามคำบอกของ Bill Slawski Google การใช้ LSI จะคล้ายกับ 'การใช้อุปกรณ์โทรเลขอัจฉริยะเพื่อเชื่อมต่อกับ เว็บบนมือถือ'
  • Google ใช้ RankBrain ซึ่งเป็นวิธีการเรียนรู้ของเครื่องที่แปลงปริมาณข้อความให้เป็น 'เวกเตอร์' ซึ่งเป็นเอนทิตีทางคณิตศาสตร์ที่ช่วยให้คอมพิวเตอร์เข้าใจภาษาเขียน RankBrain รองรับเว็บเป็นชุดข้อมูลที่ขยายอย่างต่อเนื่อง ทำให้ Google ใช้งานได้ ไม่เหมือนกับ LSI

ในที่สุด LSI จะเปิดเผยความจริงที่นักการตลาดควรปฏิบัติตาม: การสำรวจบริบทเฉพาะของคำช่วยให้เราเข้าใจเจตนาของผู้ใช้ได้ดีกว่าคำหลักที่บรรจุอยู่ในเนื้อหา อย่างไรก็ตาม ไม่จำเป็นต้องเป็นการยืนยันว่า Google จัดอันดับตาม LSI ดังนั้นจึงปลอดภัยที่จะบอกว่า LSI ทำงานใน SEO เป็นปรัชญา แทนที่จะเป็นวิทยาศาสตร์ที่แน่นอน

กลับไปที่คำพูดของ Roger Montti เกี่ยวกับ LSI ว่าเป็น "วงล้อฝึกอบรมสำหรับเครื่องมือค้นหา" เมื่อคุณเรียนรู้ที่จะขี่จักรยาน คุณมักจะถอดล้อฝึกซ้อมออก เราสามารถสรุปได้ว่าในปี 2020 Google จะไม่ใช้วงล้อการฝึกอีกต่อไปแล้วหรือ

เราสามารถพิจารณาการอัปเดตอัลกอริทึมล่าสุดของ Google ในเดือนตุลาคม 2019 Pandu Nayak รองประธานฝ่ายการค้นหา ประกาศว่า Google ได้เริ่มใช้ระบบ AI ชื่อ BERT (Bidirectional Encoder Representations จาก Transformers) ซึ่งส่งผลกระทบมากกว่า 10% ของคำค้นหาทั้งหมด นี่เป็นหนึ่งในการอัปเดตที่ใหญ่ที่สุดของ Google ในช่วงไม่กี่ปีที่ผ่านมา

เมื่อวิเคราะห์คำค้นหา BERT จะพิจารณาคำเดียวที่เกี่ยวข้องกับคำทั้งหมดในวลีนั้น การวิเคราะห์นี้เป็นแบบสองทิศทาง โดยจะพิจารณาคำทั้งหมดก่อนหรือหลังคำเฉพาะ การลบคำเดียวอาจส่งผลกระทบอย่างมากต่อการที่ BERT เข้าใจบริบทเฉพาะของวลี

สิ่งนี้แสดงถึงความแตกต่างจาก LSI ซึ่งละเว้นคำหยุดจากการวิเคราะห์ ตัวอย่างด้านล่างแสดงให้เห็นว่าการลบคำหยุดสามารถเปลี่ยนแปลงวิธีที่เราเข้าใจวลีได้อย่างไร:

แม้ว่าจะเป็นคำหยุด แต่ 'find' คือหัวใจสำคัญของการค้นหา ซึ่งเราจะกำหนดเป็นคำค้นหา 'visit-in-person'

แล้วนักการตลาดควรทำอย่างไร?

ในขั้นต้น คิดว่า LSI จะสามารถช่วยให้ Google จับคู่เนื้อหากับข้อความค้นหาที่เกี่ยวข้องได้ อย่างไรก็ตาม ดูเหมือนว่าการอภิปรายทางการตลาดเกี่ยวกับการใช้ LSI ยังไม่ถึงข้อสรุปเพียงข้อเดียว อย่างไรก็ตาม นักการตลาดยังคงสามารถดำเนินการหลายขั้นตอนเพื่อให้แน่ใจว่างานของตนยังคงมีความเกี่ยวข้องในเชิงกลยุทธ์

ประการแรก บทความ สำเนาเว็บ และแคมเปญแบบชำระเงินควรได้รับการปรับให้เหมาะสมเพื่อรวมคำพ้องความหมายและรูปแบบต่างๆ สิ่งนี้อธิบายวิธีที่ผู้ที่มีเจตนาคล้ายกันใช้ภาษาต่างกัน

นักการตลาดต้องเขียนต่อไปอย่างมีอำนาจและชัดเจน นี่เป็นสิ่งจำเป็นอย่างยิ่งหากพวกเขาต้องการเนื้อหาเพื่อแก้ปัญหาเฉพาะ ปัญหานี้อาจเกิดจากการขาดข้อมูลหรือความจำเป็นในผลิตภัณฑ์หรือบริการบางอย่าง เมื่อนักการตลาดทำเช่นนี้ แสดงว่าพวกเขาเข้าใจเจตนาของผู้ใช้อย่างแท้จริง

สุดท้ายนี้ ควรใช้ข้อมูลที่มีโครงสร้างเป็นประจำ ไม่ว่าจะเป็นเว็บไซต์ สูตรอาหาร หรือคำถามที่พบบ่อย ข้อมูลที่มีโครงสร้างจะให้บริบทสำหรับ Google เพื่อให้เข้าใจถึงสิ่งที่กำลังรวบรวมข้อมูล