การเพิ่มขึ้นของการค้นหาหลายรูปแบบและหลายภาษา
เผยแพร่แล้ว: 2022-01-06การขยายการค้นหาให้กว้างกว่าข้อความค้นหาและการขจัดอุปสรรคด้านภาษาเป็นแนวโน้มล่าสุดที่กำหนดอนาคตของเครื่องมือค้นหา ด้วยคุณสมบัติใหม่ที่ขับเคลื่อนด้วย AI เครื่องมือค้นหากำลังมองหาการส่งเสริมประสบการณ์การค้นหาที่ดีขึ้นและในขณะเดียวกันก็นำเสนอเครื่องมือใหม่ ๆ เพื่อช่วยให้ผู้ใช้ดึงข้อมูลเฉพาะ ในบทความนี้ เราจะ พูดถึงหัวข้อที่เพิ่มขึ้นของระบบการค้นหาหลายรูปแบบและหลายภาษา นอกจากนี้เรายังจะแสดงผลลัพธ์ของเครื่องมือค้นหาตัวอย่างที่เราสร้างขึ้นที่ Wordlift
เครื่องมือค้นหารุ่นต่อไป
ประสบการณ์ผู้ใช้ที่ดีประกอบด้วยการโต้ตอบที่หลากหลายระหว่างผู้ใช้และเครื่องมือค้นหา ตั้งแต่การออกแบบอินเทอร์เฟซผู้ใช้และความสามารถในการใช้งาน ไปจนถึงการทำความเข้าใจจุดประสงค์ในการค้นหาและการแก้ไขข้อความค้นหาที่คลุมเครือ เครื่องมือค้นหาขนาดใหญ่กำลังเตรียมเครื่องมือ ค้นหารุ่นต่อไป
การค้นหาต่อเนื่องหลายรูปแบบ
วิธีหนึ่งในการอธิบายเครื่องมือค้นหาหลายรูปแบบคือการคิดถึงระบบที่สามารถจัดการกับ ข้อความและรูปภาพในข้อความค้นหาเดียว เสิร์ชเอ็นจิ้นดังกล่าวจะอนุญาตให้ผู้ใช้แสดงข้อความค้นหาที่ป้อนผ่าน อินเทอร์เฟซการค้นหาหลายรูปแบบ และด้วยเหตุนี้จึงทำให้ประสบการณ์การค้นหาที่เป็นธรรมชาติและเป็นธรรมชาติยิ่งขึ้น
บนเว็บไซต์อีคอมเมิร์ซ เครื่องมือค้นหาหลายรูปแบบจะอนุญาตให้ดึงเอกสารที่เกี่ยวข้องจากฐานข้อมูลที่จัดทำดัชนี ความเกี่ยวข้องถูกประเมินโดยการวัดความคล้ายคลึงกันของผลิตภัณฑ์ที่พร้อมใช้งานกับแบบสอบถามที่ระบุในรูปแบบมากกว่าหนึ่งรูปแบบ เช่น ข้อความ รูปภาพ เสียง หรือวิดีโอ ด้วยเหตุนี้ เสิร์ชเอ็นจิ้นจึงเป็นระบบต่อเนื่องหลายรูปแบบ เนื่องจากกลไกพื้นฐานสามารถจัดการกับโมดอลอินพุตที่แตกต่างกันได้ เช่น รูปแบบ ในเวลาเดียวกัน
ตัวอย่างเช่น คำค้นหาอาจอยู่ในรูปของ "ชุดเดรสลายดอกไม้" ในกรณีนี้ เว็บสโตร์มีชุดเดรสลายดอกไม้จำนวนมาก อย่างไรก็ตาม เสิร์ชเอ็นจิ้นส่งคืนชุดที่ไม่น่าพอใจสำหรับผู้ใช้จริง ๆ ดังแสดงในรูปต่อไปนี้
แสดงผลลัพธ์สำหรับข้อความค้นหา "ชุดเดรสลายดอกไม้"
เพื่อมอบประสบการณ์การค้นหาที่ดีและให้ผลลัพธ์ที่มีความเกี่ยวข้องสูง เครื่องมือค้นหาหลายรูปแบบสามารถรวมข้อความและรูปภาพในข้อความค้นหาเดียว ในกรณีนี้ ผู้ใช้ให้ภาพตัวอย่างของผลิตภัณฑ์ที่ต้องการ เมื่อเรียกใช้การค้นหานี้เป็นการค้นหาต่อเนื่องหลายรูปแบบ รูปภาพที่ป้อนจะเป็นชุดลายดอกไม้ที่แสดงในภาพต่อไปนี้
รูปภาพที่ผู้ใช้ระบุสำหรับแบบสอบถามหลายรูปแบบ
ในสถานการณ์สมมตินี้ ส่วนแรกของคิวรียังคงเหมือนเดิม (เดรสลายดอกไม้) และส่วนที่สองเพิ่มลักษณะที่มองเห็นได้ให้กับคิวรีหลายรูปแบบ ผลลัพธ์ที่ได้คือชุดที่คล้ายกับชุดเดรสลายดอกไม้ที่ผู้ใช้ให้มา ในกรณีการใช้งานนี้ มีชุดเดรสที่เหมือนกันทุกประการ ดังนั้นจึงเป็นผลลัพธ์แรกที่ส่งคืนพร้อมกับชุดอื่นๆ ที่คล้ายคลึงกัน
ผลการค้นหาที่เกี่ยวข้องส่งคืนเพื่อตอบสนองต่อข้อความค้นหาต่อเนื่องหลายรูปแบบ
แม่
Google นำเสนอเทคโนโลยีใหม่เพื่อช่วยผู้ใช้ในการค้นหาที่ซับซ้อน เทคโนโลยีใหม่นี้เรียกว่า MUM ย่อมาจาก Multitask Unified Model และสามารถ ทำลายอุปสรรคด้านภาษาและตีความข้อมูลในรูปแบบเนื้อหาต่างๆ เช่น หน้าเว็บและรูปภาพ
Google Lens เป็นหนึ่งในผลิตภัณฑ์แรกๆ ที่ใช้ประโยชน์จากการรวมรูปภาพและข้อความไว้ในข้อความค้นหาเดียว ในบริบทการค้นหา MUM จะทำให้ผู้ใช้ค้นหารูปแบบได้ง่ายขึ้น เช่น ลวดลายดอกไม้เฉพาะในภาพที่ผู้ใช้จัดเตรียม
MUM เป็นก้าวใหม่ของ AI ในการทำความเข้าใจข้อมูลดังที่แสดงไว้ที่นี่:
“แม้ว่าเราจะอยู่ในช่วงเริ่มต้นของการสำรวจ MUM แต่ก็เป็นก้าวสำคัญสู่อนาคตที่ Google สามารถเข้าใจวิธีต่างๆ ที่ผู้คนสื่อสารและตีความข้อมูลได้อย่างเป็นธรรมชาติ”
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการค้นหาต่อเนื่องหลายรูปแบบ MUM ของ Google โปรดดูเรื่องราวบนเว็บนี้:
ขยายการค้นหาในภาษาต่างๆ
แม้ว่ารูปภาพจะไม่เชื่อเรื่องภาษา แต่ข้อความค้นหาก็เป็นภาษาเฉพาะ งานออกแบบระบบหลายภาษาขึ้นอยู่กับการสร้างแบบจำลองภาษาในหลากหลายภาษา
ค้นหาหลายภาษา
ข้อจำกัดที่สำคัญประการหนึ่งของระบบการค้นหาในปัจจุบันคือ พวกเขาดึงเอกสารที่เขียนหรือใส่คำอธิบายประกอบในภาษาที่ผู้ใช้เขียนคำค้นหา โดยทั่วไป เครื่องมือเหล่านี้เป็นภาษาอังกฤษเท่านั้น เสิร์ชเอ็นจิ้นที่ใช้ภาษาเดียวดังกล่าวจำกัดประโยชน์ของระบบเหล่านี้ในการค้นหาข้อมูลที่เป็นประโยชน์ซึ่งเขียนในภาษาอื่น
ในทางกลับกัน ระบบหลายภาษายอมรับการสืบค้นในภาษาหนึ่งและดึงเอกสารที่จัดทำดัชนีในภาษาอื่น ในความเป็นจริง ระบบค้นหาสามารถพูดได้หลายภาษาหากสามารถดึงเอกสารที่เกี่ยวข้องจากฐานข้อมูลโดยการจับคู่เนื้อหาของเอกสารหรือคำอธิบายภาพที่เขียนในภาษาหนึ่งพร้อมกับข้อความค้นหาในภาษาอื่น เทคนิคการจับคู่มีตั้งแต่กลไกทางวากยสัมพันธ์ไปจนถึงวิธีค้นหาเชิงความหมาย
การจับคู่ประโยคในภาษาต่างๆ ด้วยแนวคิดเกี่ยวกับภาพเป็นขั้นตอนแรกใน การส่งเสริมการใช้แบบจำลองภาษาวิสัยข้ามภาษา ข่าวดีก็คือว่าแนวคิดของภาพได้รับการตีความในลักษณะเดียวกันโดยมนุษย์ทุกคน ระบบเหล่านี้สามารถรวมข้อมูลจากแหล่งมากกว่าหนึ่งแหล่งและมากกว่าหนึ่งภาษาเรียกว่า ระบบหลายภาษาหลายรูปแบบ อย่างไรก็ตาม การจับคู่ข้อความรูปภาพกับข้อความอาจใช้ไม่ได้กับทุกภาษาในวงกว้างเสมอไป ดังที่อธิบายในหัวข้อต่อไปนี้
[กรณีศึกษา] ขับเคลื่อนการเติบโตในตลาดใหม่ด้วย SEO บนหน้าเว็บ
จาก MUM ถึง MURAL
มีความพยายามเพิ่มขึ้นในการนำเทคนิคการเรียนรู้เชิงลึกขั้นสูงและการประมวลผลภาษาธรรมชาติไปใช้กับเครื่องมือค้นหา Google นำเสนองานวิจัยใหม่ที่อนุญาตให้ผู้ใช้แสดงคำโดยใช้รูปภาพ ตัวอย่างเช่น คำว่า “วาลีฮา” หมายถึงเครื่องดนตรีที่ทำจากไม้พิณและเล่นโดยชาวมาลากาซี คำนี้ไม่มีการแปลโดยตรงเป็นภาษาส่วนใหญ่ แต่สามารถอธิบายได้ง่ายโดยใช้รูปภาพ
ระบบใหม่นี้เรียกว่า MURA ย่อมาจาก Multimodal, Multi-task Retrieval Across Languages ช่วยให้สามารถแก้ไขปัญหาของคำในภาษาเดียวที่อาจไม่มีการแปลเป็นภาษาเป้าหมายโดยตรง ด้วยประเด็นดังกล่าว แบบจำลองหลายภาษาที่ได้รับการฝึกอบรมล่วงหน้าจำนวนมากจะล้มเหลวในการค้นหาคำที่เกี่ยวข้องเชิงความหมายหรือแปลคำไปหรือมาจากภาษาที่มีทรัพยากรไม่เพียงพอ อันที่จริง MURAL สามารถจัดการกับปัญหาในโลกแห่งความเป็นจริงได้มากมาย:
- คำที่สื่อความหมายทางจิตใจที่แตกต่างกันในภาษาต่างๆ ตัวอย่างหนึ่งคือ คำว่า “งานแต่งงาน” ในภาษาอังกฤษและภาษาฮินดีที่สื่อถึงภาพจิตต่างๆ ดังภาพต่อไปนี้จากบล็อกของ Google
- การขาดแคลนข้อมูลสำหรับภาษาที่มีทรัพยากรไม่เพียงพอบนเว็บ: 90% ของคู่ข้อความและรูปภาพบนเว็บอยู่ใน 10 ภาษาที่มีทรัพยากรสูง
รูปภาพนำมาจากวิกิพีเดีย โดยให้เครดิตกับ Psoni2402 (ซ้าย) และ David McCandless (ขวา) พร้อมใบอนุญาต CC BY-SA 4.0
การลดความคลุมเครือของข้อความค้นหาและการแก้ปัญหาความขาดแคลนของคู่ข้อความรูปภาพสำหรับภาษาที่มีทรัพยากรไม่เพียงพอเป็นการปรับปรุงอีกประการหนึ่งสำหรับเสิร์ชเอ็นจิ้นรุ่นต่อไปที่ขับเคลื่อนโดย AI
การค้นหาหลายภาษาและหลายรูปแบบในการดำเนินการ
ในงานนี้ เราใช้เครื่องมือที่มีอยู่และแบบจำลองภาษาและการมองเห็นที่มีอยู่เพื่อออกแบบระบบหลายภาษาที่ มีความหลากหลายมากกว่าภาษาเดียว และสามารถ จัดการได้มากกว่าหนึ่งรูปแบบในแต่ละครั้ง
ก่อนอื่น การออกแบบระบบหลายภาษา การเชื่อมโยงคำที่มาจากภาษาต่างๆ มีความหมายตามความหมาย ประการที่สอง ในการทำให้ระบบเป็นหลายรูปแบบ จำเป็นต้องเชื่อมโยงการแสดงภาษากับรูปภาพ ด้วยเหตุนี้ จึงเป็น ก้าวย่างสำคัญสู่ วัตถุประสงค์ที่มีมายาวนานของการค้นหาแบบหลายภาษาหลายรูปแบบ
บริบท
กรณีใช้งานหลักของระบบหลายภาษาหลายรูปแบบนี้คือการแสดงรูปภาพที่เกี่ยวข้องจากชุดข้อมูลที่ได้รับจากการสืบค้นที่รวมรูปภาพและข้อความไว้พร้อมกัน ในบรรทัดนี้ เราจะแสดงตัวอย่างบางส่วนที่แสดงสถานการณ์ต่อเนื่องหลายรูปแบบและหลายภาษา
แกนหลักของแอปสาธิตนี้ขับเคลื่อนโดย Jina AI ซึ่งเป็นระบบนิเวศการค้นหาทางประสาทแบบโอเพนซอร์ส การค้นหาด้วยประสาทที่ขับเคลื่อนโดยการดึงข้อมูลเครือข่ายประสาทเทียมลึก (หรือ IR ประสาท) เป็นโซลูชันที่น่าสนใจสำหรับการสร้างระบบหลายรูปแบบ ในการสาธิตนี้ เราใช้สถาปัตยกรรม MPNet Transformer จาก Hugging Face, multilingual-mpnet-base-v2 เพื่อประมวลผลคำอธิบายและคำบรรยายแบบข้อความ ส่วนภาพเราใช้ MobileNetV2
ต่อไปนี้ เราขอนำเสนอ ชุดการทดสอบเพื่อแสดงพลังของเครื่องมือค้นหาหลายภาษาและหลายรูปแบบ ก่อนนำเสนอผลลัพธ์ของเครื่องมือสาธิต ต่อไปนี้คือรายการองค์ประกอบหลักที่อธิบายการทดสอบเหล่านี้:
- ฐานข้อมูลประกอบด้วยรูปภาพ 1k ที่แสดงถึงคนที่กำลังเล่นดนตรี ภาพเหล่านี้นำมาจากชุดข้อมูลสาธารณะ Flickr30K
- ทุกภาพมีคำบรรยายเป็นภาษาอังกฤษ
ขั้นตอนที่ 1: เริ่มต้นด้วยข้อความค้นหาในภาษาอังกฤษ
อันดับแรก เราเริ่มต้นด้วยข้อความค้นหาที่สะท้อนถึงวิธีการปัจจุบันในการทำงานของเครื่องมือค้นหาส่วนใหญ่ คำถามคือ "กลุ่มนักดนตรี"
แบบสอบถาม
ผลลัพธ์
เสิร์ชเอ็นจิ้นที่ใช้ Jina ของเราจะแสดงรูปภาพของนักดนตรีที่เกี่ยวข้องกับข้อความค้นหาที่ป้อน อย่างไรก็ตาม นี่อาจไม่ใช่ประเภทของนักดนตรีที่เราต้องการ
ขั้นตอนที่ 2: การเพิ่มความหลากหลายทางเพศ
ตอนนี้ มาเพิ่มรูปแบบที่หลากหลายด้วยการออกคิวรีที่รวมทั้งข้อความค้นหาแบบข้อความก่อนหน้าและรูปภาพ รูปภาพแสดงถึงการแสดงนักดนตรีที่เรากำลังมองหาที่แม่นยำยิ่งขึ้น
ก่อนอื่น UI จำเป็นต้องสนับสนุนการออกคำสั่งประเภทดังกล่าว จากนั้น เราต้องกำหนดน้ำหนักให้สมดุลกับความสำคัญของแต่ละรูปแบบเมื่อดึงผลลัพธ์ออกมา ในกรณีนี้ ทั้งข้อความและรูปภาพจะมีน้ำหนักเท่ากัน (0.5) ดังที่เราเห็นด้านล่าง ผลการค้นหาใหม่มีรูปภาพจำนวนหนึ่งที่มองเห็นได้ใกล้เคียงกับข้อความค้นหารูปภาพที่ป้อน
แบบสอบถาม
ผลลัพธ์
ขั้นตอนที่ 3: กำหนดน้ำหนักสูงสุดให้กับรูปภาพ
นอกจากนี้ยังสามารถกำหนดน้ำหนักสูงสุดให้กับรูปภาพได้อีกด้วย การทำเช่นนั้นจะไม่รวมข้อความที่ป้อนเข้าจากการสืบค้น ในกรณีนี้ รูปภาพอื่นๆ ที่ดูคล้ายกับภาพที่ป้อนจะถูกส่งกลับและจัดอันดับในตำแหน่งแรก สิ่งหนึ่งที่ต้องจำไว้คือ ผลลัพธ์จะจำกัดเฉพาะรูปภาพที่มีอยู่ในชุดข้อมูล
แบบสอบถาม
ผลลัพธ์
ขั้นตอนที่ 4: ทดสอบการค้นหาหลายภาษา
ตอนนี้ เรามาลองสร้างแบบสอบถามเดียวกันแต่ใช้ภาษาอื่นกัน เพิ่มน้ำหนักของข้อความให้ใหญ่สุดเพื่อแสดงพลังเต็มที่ของระบบหลายภาษานี้ โปรดจำไว้ว่าคำบรรยายภาพเป็นภาษาอังกฤษเท่านั้น มีการค้นหาซ้ำเพื่อให้ครอบคลุมภาษาต่อไปนี้:
- ฝรั่งเศส: Groupe de musiciens
- ภาษาอิตาลี: Gruppo di musicisti
- เยอรมัน: Gruppe von Musikern
ผลลัพธ์ที่ส่งคืนนั้นมีความเกี่ยวข้องและสอดคล้องกันในสามภาษาโดยไม่คำนึงถึงภาษาของแบบสอบถามการป้อนข้อมูล ผลลัพธ์แสดงไว้ด้านล่าง
ผลลัพธ์สำหรับข้อความค้นหาในภาษาฝรั่งเศส
ผลลัพธ์สำหรับข้อความค้นหาในภาษาอิตาลี
ผลลัพธ์สำหรับข้อความค้นหาในภาษาเยอรมัน
อนาคตหลายภาษาของการค้นหา
ในอีกไม่กี่ปีข้างหน้า ปัญญาประดิษฐ์จะเปลี่ยนแปลงการค้นหาและปลดล็อกวิธีการใหม่ๆ ให้กับผู้คนในการแสดงคำถามและสำรวจข้อมูลมากขึ้น ตามที่ Google ได้ประกาศไปแล้ว การทำความเข้าใจข้อมูลด้วย MUM ถือเป็นก้าวสำคัญของ AI ระบบที่ขับเคลื่อนด้วย AI ในอนาคตจะรวมคุณลักษณะและการปรับปรุงต่างๆ ตั้งแต่การมอบประสบการณ์การค้นหาที่ดีขึ้นไปจนถึงการตอบคำถามที่ซับซ้อน และจากการขจัดอุปสรรคด้านภาษาไปจนถึงการรวมโหมดการค้นหาต่างๆ ไว้ในข้อความค้นหาเดียว