ظهور البحث متعدد الوسائط والمتعدد اللغات

نشرت: 2022-01-06

يعد توسيع البحث إلى ما بعد الاستعلامات النصية وإزالة حواجز اللغة من الاتجاهات الحديثة التي تشكل مستقبل محركات البحث. مع الميزات الجديدة المدعومة بالذكاء الاصطناعي ، تبحث محركات البحث في الترويج لتجربة بحث أفضل ، وفي الوقت نفسه ، تقديم أدوات جديدة لمساعدة المستخدمين على استرداد معلومات محددة. في هذه المقالة ، سنتناول الموضوع المتزايد لأنظمة البحث متعددة الوسائط ومتعددة اللغات . سنعرض أيضًا نتائج أداة البحث التجريبي التي أنشأناها في Wordlift.

الجيل القادم من محركات البحث

تتضمن تجربة المستخدم الجيدة جوانب تفاعل متعددة بين المستخدمين ومحركات البحث. من تصميم واجهة المستخدم وإمكانية استخدامها إلى فهم هدف البحث وحل الاستفسارات الغامضة ، تقوم محركات البحث الكبيرة بإعداد الجيل التالي من أدوات البحث .

بحث متعدد الوسائط

تتمثل إحدى طرق وصف محرك بحث متعدد الوسائط في التفكير في نظام قادر على التعامل مع النصوص والصور في استعلام واحد . ستسمح محركات البحث هذه للمستخدمين بالتعبير عن استفساراتهم المدخلة من خلال واجهة بحث متعددة الوسائط ، ونتيجة لذلك تتيح تجربة بحث أكثر طبيعية وبديهية.

على موقع التجارة الإلكترونية ، يسمح محرك بحث متعدد الوسائط باسترجاع الوثائق ذات الصلة من قاعدة بيانات مفهرسة. يتم تقييم الصلة من خلال قياس تشابه المنتجات المتاحة مع استعلام معين بأكثر من تنسيق مثل النص أو الصورة أو الصوت أو الفيديو. نتيجة لذلك ، يعد محرك البحث هذا نظامًا متعدد الوسائط نظرًا لأن آلياته الأساسية قادرة على التعامل مع وسائط الإدخال المختلفة ، أي التنسيقات ، في نفس الوقت.

على سبيل المثال ، يمكن أن يتخذ طلب البحث شكل "فستان زهري". في هذه الحالة ، يتوفر عدد كبير من الفساتين الزهرية في المتجر الإلكتروني. ومع ذلك ، يقوم محرك البحث بإرجاع الفساتين التي لا ترضي المستخدم كما هو موضح في الشكل التالي.


النتائج التي تم إرجاعها لطلب البحث "فستان زهري".

لتوفير تجربة بحث جيدة وإرجاع نتائج وثيقة الصلة ، يمكن لمحرك البحث متعدد الوسائط الجمع بين نص وصورة في استعلام واحد . في هذه الحالة ، يقدم المستخدم عينة من صورة المنتج المطلوب. عند إجراء هذا البحث كبحث متعدد الوسائط ، تكون الصورة المدخلة عبارة عن فستان زهري يظهر في الصورة التالية.


الصورة التي يوفرها المستخدم للاستعلام متعدد الوسائط.

في هذا السيناريو ، يظل الجزء الأول من الاستعلام كما هو (فستان زهري) ويضيف الجزء الثاني الجانب المرئي إلى الاستعلام متعدد الوسائط. النتائج التي تم إرجاعها تعطي فساتين تشبه الفستان الزهري الذي قدمه المستخدم. في حالة الاستخدام هذه ، يتوفر الفستان نفسه بالضبط ، وبالتالي ، فهو أول نتيجة يتم إرجاعها على طول الفساتين المماثلة الأخرى.


تم عرض نتائج البحث ذات الصلة استجابةً لطلب البحث متعدد الوسائط.

ماما

قدمت Google تقنية جديدة لمساعدة المستخدمين في مهام البحث المعقدة. هذه التقنية الجديدة ، المسماة MUM ، تعني النموذج الموحد متعدد المهام وهي قادرة على كسر حواجز اللغة وتفسير المعلومات عبر تنسيقات محتوى مختلفة مثل صفحات الويب والصور.

يعد Google Lens أحد المنتجات الأولى للاستفادة من ميزة دمج الصور والنص في استعلام واحد. في سياق البحث ، سيجعل MUM من السهل على المستخدمين العثور على أنماط مثل نمط الأزهار المحدد في الصورة التي يوفرها المستخدم.

MUM هو معلم جديد للذكاء الاصطناعي لفهم المعلومات كما هو معروض هنا:

"على الرغم من أننا في الأيام الأولى لاستكشاف MUM ، إلا أنها معلم هام نحو المستقبل حيث يمكن لـ Google فهم جميع الطرق المختلفة التي يتواصل بها الأشخاص بشكل طبيعي ويفسرون المعلومات."

لمعرفة المزيد حول البحث متعدد الوسائط من Google ، تحقق من قصة الويب هذه:

توسيع البحث عبر اللغات

في حين أن الصورة حيادية اللغة ، فإن مصطلحات البحث خاصة باللغة. تتلخص مهمة تصميم نظام متعدد اللغات في بناء نماذج لغوية عبر مجموعة واسعة من اللغات.

بحث متعدد اللغات

يتمثل أحد القيود الرئيسية لأنظمة البحث الحالية في أنها تسترجع المستندات المكتوبة أو المشروحة باللغة التي كتب بها المستخدم استعلام البحث. بشكل عام ، هذه المحركات باللغة الإنجليزية فقط. تحد محركات البحث أحادية اللغة هذه من فائدة هذه الأنظمة في العثور على معلومات مفيدة مكتوبة بلغة مختلفة.

من ناحية أخرى ، تقبل الأنظمة متعددة اللغات استعلامًا بلغة واحدة وتسترجع المستندات المفهرسة بلغات أخرى. في الواقع ، يكون نظام البحث متعدد اللغات إذا كان قادرًا على استرداد المستندات ذات الصلة من قاعدة البيانات عن طريق مطابقة محتوى المستند ، أو التسميات التوضيحية ، المكتوبة بلغة ما مع الاستعلام النصي بلغة أخرى. تتراوح تقنيات المطابقة من الآليات النحوية إلى مناهج البحث الدلالي.

يُعد إقران الجمل بلغات مختلفة مع المفاهيم المرئية خطوة أولى لتعزيز استخدام نماذج لغة الرؤية عبر اللغات . الخبر السار هو أن المفاهيم المرئية يتم تفسيرها بنفس الطريقة تقريبًا من قبل جميع البشر. تسمى هذه الأنظمة القادرة على دمج المعلومات من أكثر من مصدر وعبر أكثر من لغة أنظمة متعددة الوسائط متعددة اللغات . ومع ذلك ، فإن إقران نص الصورة ليس دائمًا ممكنًا لجميع اللغات على نطاق واسع كما هو موضح في القسم التالي.

[دراسة حالة] زيادة النمو في الأسواق الجديدة باستخدام تحسين محركات البحث على الصفحة

عندما بدأت Springly تبحث في التوسع في سوق أمريكا الشمالية ، تم تحديد مُحسنات محركات البحث على الصفحة كأحد المفاتيح لبداية ناجحة في سوق جديد. تعرف على كيفية الانتقال من 0 إلى النجاح باستخدام مُحسّنات محرّكات البحث التقنية لاستراتيجية المحتوى الخاصة بك.
اقرأ دراسة الحالة

من أمي إلى مورال

هناك جهود متزايدة نحو تطبيق تقنيات التعلم العميق المتقدمة ومعالجة اللغة الطبيعية لمحركات البحث. قدمت Google عملًا بحثيًا جديدًا يسمح للمستخدمين بالتعبير عن الكلمات باستخدام الصور. على سبيل المثال ، تشير كلمة "valiha" إلى آلة مصنوعة من آلة القانون الأنبوبية ويلعبها شعب مدغشقر. تفتقر هذه الكلمة إلى الترجمة المباشرة إلى معظم اللغات ، ولكن يمكن وصفها بسهولة باستخدام الصور.

النظام الجديد ، المسمى MURA ، يرمز إلى الاسترجاع متعدد الوسائط ، متعدد المهام عبر اللغات. يسمح بمعالجة مشكلة الكلمات في لغة واحدة والتي قد لا يكون لها ترجمة مباشرة إلى لغة الهدف. مع مثل هذه المشكلات ، قد تفشل العديد من النماذج متعددة اللغات المُدرَّبة مسبقًا في العثور على كلمات ذات صلة لغويًا أو في ترجمة الكلمات بدقة من أو إلى لغة قليلة الموارد. في الواقع ، يمكن لـ MURAL معالجة العديد من مشكلات العالم الحقيقي:

  • كلمات تنقل معاني عقلية مختلفة بلغات مختلفة: أحد الأمثلة على ذلك هو كلمة "زفاف" باللغتين الإنجليزية والهندية التي تنقل صوراً ذهنية مختلفة كما هو موضح في الصورة التالية من مدونة جوجل.
  • ندرة البيانات الخاصة باللغات منخفضة الموارد على الويب: 90٪ من أزواج الصور النصية على الويب تنتمي إلى أفضل 10 لغات عالية الموارد.


الصور مأخوذة من ويكيبيديا ، تُنسب إلى Psoni2402 (يسار) وديفيد ماكاندليس (يمين) بترخيص CC BY-SA 4.0.

يعد الحد من غموض الاستعلامات وتوفير حل لمشكلة ندرة أزواج الصور والنصوص للغات قليلة الموارد تحسينًا آخر نحو الجيل التالي من محركات البحث التي تعمل بالذكاء الاصطناعي.

البحث متعدد اللغات والوسائط أثناء العمل

في هذا العمل ، نستخدم الأدوات الحالية ونماذج اللغة والرؤية المتاحة لتصميم نظام متعدد الوسائط متعدد اللغات يتجاوز لغة واحدة ويمكنه التعامل مع أكثر من طريقة في وقت واحد .

بادئ ذي بدء ، لتصميم نظام متعدد اللغات ، من المهم ربط الكلمات التي تأتي من لغات مختلفة بشكل لغوي. ثانيًا ، لجعل النظام متعدد الوسائط ، من الضروري ربط تمثيل اللغات بالصور. نتيجة لذلك ، تعد هذه خطوة كبيرة نحو الهدف طويل الأمد للبحث متعدد الوسائط متعدد اللغات.

السياق

تتمثل حالة الاستخدام الأساسية لهذا النظام متعدد اللغات في إرجاع الصور ذات الصلة من مجموعة البيانات في ظل استعلام يجمع بين صورة ونص في نفس الوقت. في هذا السياق ، سنعرض بعض الأمثلة التي توضح سيناريوهات متعددة الوسائط ومتعددة اللغات.

يتم تشغيل العمود الفقري لهذا التطبيق التجريبي بواسطة Jina AI ، وهو نظام بحث عصبي مفتوح المصدر. يعد البحث العصبي ، المدعوم من استرجاع معلومات الشبكة العصبية العميقة (أو الأشعة تحت الحمراء العصبية) ، حلاً جذابًا لبناء نظام متعدد الوسائط. في هذا العرض التوضيحي ، نستخدم بنية MPNet Transformer من Hugging Face ، multilingual-mpnet-base-v2 ، لمعالجة الأوصاف النصية والتعليقات التوضيحية. أما بالنسبة للجزء المرئي فنستخدم MobileNetV2.

فيما يلي نقدم سلسلة من الاختبارات لإظهار قوة محركات البحث متعددة اللغات والوسائط . قبل تقديم نتائج أداة العرض التوضيحي الخاصة بنا ، إليك قائمة بالعناصر الأساسية التي تصف هذه الاختبارات:

  • تتكون قاعدة البيانات من 1 ألف صورة تصور أشخاصًا يعزفون الموسيقى. هذه الصور مأخوذة من مجموعة البيانات العامة Flickr30K.
  • كل صورة لها تعليق مكتوب باللغة الإنجليزية.

الخطوة 1: البدء باستعلام نصي باللغة الإنجليزية

أولاً ، نبدأ باستعلام نصي يعكس الطريقة الحالية التي تعمل بها معظم محركات البحث. طلب البحث هو "مجموعة من الموسيقيين".

الاستعلام

النتائج

يعرض محرك البحث التجريبي المستند إلى Jina صورًا للموسيقيين التي ترتبط ارتباطًا جوهريًا باستعلام الإدخال. ومع ذلك ، قد لا يكون هذا هو نوع الموسيقيين الذي نريده.

الخطوة 2: إضافة الوسائط المتعددة

دعنا الآن نضيف بعض الوسائط المتعددة عن طريق إصدار استعلام يجمع بين كل من الاستعلام النصي السابق والصورة. تمثل الصورة تمثيلًا أكثر دقة للموسيقيين الذين نبحث عنهم.

بادئ ذي بدء ، تحتاج واجهة المستخدم إلى دعم إصدار مثل هذه الأنواع من الاستعلامات. بعد ذلك ، يتعين علينا تعيين وزن لموازنة أهمية كل طريقة عند استرداد النتائج. في هذه الحالة ، يكون لكل من النص والصورة وزن متساوي (0.5). كما نرى أدناه ، تتضمن نتائج البحث الجديدة عددًا من الصور التي تشبه بصريًا استعلام صورة الإدخال.

الاستعلام

النتائج

الخطوة 3: تعيين أقصى وزن للصورة

من الممكن أيضًا إعطاء أقصى وزن للصورة. سيؤدي القيام بذلك إلى استبعاد نص الإدخال من الاستعلام. في هذه الحالة ، يتم إرجاع المزيد من الصور المتشابهة بصريًا مع صورة الإدخال وترتيبها في المواضع الأولى. شيء واحد يجب مراعاته هو أن النتائج تقتصر على الصور المتوفرة في مجموعة البيانات.

الاستعلام

النتائج

الخطوة 4: اختبار البحث متعدد اللغات

لنحاول الآن إصدار نفس الاستعلام ولكن باستخدام لغات مختلفة. يتم تكبير وزن النص لتوضيح القوة الكاملة لهذا النظام متعدد اللغات. يرجى تذكر أن التسميات التوضيحية للصور باللغة الإنجليزية فقط. يتكرر البحث ليشمل اللغات التالية:

  • الفرنسية: Groupe de musiciens
  • الإيطالية: Gruppo di musicisti
  • الألمانية: Gruppe von Musikern

بغض النظر عن لغة استعلام الإدخال ، تكون النتائج المعروضة ملائمة ومتسقة عبر اللغات الثلاث. النتائج معروضة أدناه.

نتائج الاستعلام باللغة الفرنسية

نتائج الاستعلام باللغة الإيطالية

نتائج الاستعلام باللغة الألمانية

مستقبل البحث متعدد اللغات

في السنوات القادمة ، سيغير الذكاء الاصطناعي البحث بشكل متزايد ويفتح طرقًا جديدة تمامًا للأشخاص للتعبير عن استفساراتهم واستكشاف المعلومات. كما أعلنت Google بالفعل ، فإن فهم المعلومات باستخدام MUM يمثل علامة فارقة في مجال الذكاء الاصطناعي. سيتضمن المزيد من الأنظمة التي تعمل بالذكاء الاصطناعي في المستقبل ميزات وتحسينات تتراوح من توفير تجربة بحث أفضل إلى الإجابة على الأسئلة المعقدة ومن كسر حواجز اللغة إلى الجمع بين أوضاع البحث المختلفة في استعلام واحد.