ما هي الفهرسة الدلالية الكامنة وكيف تعمل؟

نشرت: 2020-04-02

لطالما كانت الفهرسة الدلالية الكامنة (LSI) سببًا للنقاش بين مسوقي البحث. ابحث في Google عن مصطلح "الفهرسة الدلالية الكامنة" وستواجه كلاً من المؤيدين والمتشككين على قدم المساواة. لا يوجد إجماع واضح على فوائد التفكير في إل إس آي في سياق التسويق عبر محركات البحث. إذا لم تكن معتادًا على هذا المفهوم ، فستلخص هذه المقالة النقاش حول LSI ، لذلك نأمل أن تفهم ما يعنيه ذلك بالنسبة لاستراتيجية تحسين محركات البحث الخاصة بك.

ما هي الفهرسة الدلالية الكامنة؟

LSI هي عملية موجودة في معالجة اللغة الطبيعية (NLP). البرمجة اللغوية العصبية هي مجموعة فرعية من علم اللغة وهندسة المعلومات ، مع التركيز على كيفية تفسير الآلات للغة البشرية. جزء رئيسي من هذه الدراسة هو دلالات التوزيع. يساعدنا هذا النموذج في فهم وتصنيف الكلمات ذات المعاني السياقية المتشابهة ضمن مجموعات البيانات الكبيرة.

يستخدم LSI ، الذي تم تطويره في الثمانينيات ، طريقة رياضية تجعل استرداد المعلومات أكثر دقة. تعمل هذه الطريقة من خلال تحديد العلاقات السياقية المخفية بين الكلمات. قد يساعدك تقسيمها على النحو التالي:

كامن → مخفي
الدلالي → العلاقات بين الكلمات
الفهرسة ← استرجاع المعلومات

كيف تعمل الفهرسة الدلالية الكامنة؟

يعمل LSI باستخدام التطبيق الجزئي لتحليل القيمة المفردة (SVD). SVD هي عملية حسابية تقلل المصفوفة إلى أجزائها المكونة لإجراء عمليات حسابية بسيطة وفعالة.

عند تحليل سلسلة من الكلمات ، يزيل LSI الاقترانات والضمائر والأفعال الشائعة ، والمعروفة أيضًا باسم كلمات التوقف. يؤدي هذا إلى عزل الكلمات التي تشكل "المحتوى" الرئيسي لعبارة ما. فيما يلي مثال سريع لكيفية ظهور ذلك:

يتم وضع هذه الكلمات بعد ذلك في مصفوفة وثيقة المدى (TDM). TDM عبارة عن شبكة ثنائية الأبعاد تسرد التردد الذي تحدثه كل كلمة (أو مصطلح) محدد في المستندات داخل مجموعة بيانات.

ثم يتم تطبيق وظائف الوزن على TDM. مثال بسيط هو تصنيف جميع المستندات التي تحتوي على الكلمة ذات القيمة 1 وكل ما لا يحتوي على القيمة 0. عندما تحدث الكلمات بنفس التكرار العام في هذه المستندات ، يُطلق عليها اسم التكرار المشترك . ستجد أدناه مثالًا أساسيًا لـ TDM ، وكيف يتم تقييم التواجد المشترك عبر جمل متعددة:

يسمح لنا استخدام SVD بتقريب الأنماط في استخدام الكلمات عبر جميع المستندات. تتنبأ متجهات SVD التي تنتجها LSI بالمعنى بشكل أكثر دقة من تحليل المصطلحات الفردية. في النهاية ، يمكن لـ LSI استخدام العلاقات بين الكلمات لفهم معانيها أو معانيها بشكل أفضل في سياق معين.

[دراسة حالة] زيادة النمو في الأسواق الجديدة باستخدام تحسين محركات البحث على الصفحة

عندما بدأت Springly تبحث في التوسع في سوق أمريكا الشمالية ، تم تحديد مُحسنات محركات البحث على الصفحة كأحد المفاتيح لبداية ناجحة في سوق جديد. تعرف على كيفية الانتقال من 0 إلى النجاح باستخدام مُحسّنات محرّكات البحث التقنية لاستراتيجية المحتوى الخاصة بك.

اقرأ دراسة الحالة

كيف دخلت الفهرسة الدلالية الكامنة في تحسين محركات البحث؟

في سنواتها التكوينية ، وجدت Google أن محركات البحث كانت ترتب مواقع الويب بناءً على تكرار كلمة رئيسية معينة. ومع ذلك ، فإن هذا لا يضمن نتيجة البحث الأكثر صلة. وبدلاً من ذلك ، بدأت Google في ترتيب مواقع الويب التي اعتبروها حكامًا موثوقين للمعلومات.

بمرور الوقت ، ستعمل خوارزميات Google على تصفية مواقع الويب منخفضة الجودة وغير ذات الصلة بدقة أكبر. لذلك ، يجب أن يفهم المسوقون المعنى الكامن وراء البحث ، بدلاً من الاعتماد على الكلمات الدقيقة المستخدمة. هذا هو السبب في أن روجر مونتى وصف إل إس آي بأنه "عجلات تدريب لمحركات البحث" في مقال حول معتقدات تحسين محركات البحث القديمة ، مضيفًا أن إل إس آي "له علاقة قليلة أو معدومة بكيفية تصنيف محركات البحث للمواقع الإلكترونية اليوم".

يرتبط معنى استعلام البحث ارتباطًا وثيقًا بالغرض من وراءه. تحتفظ Google بمستند يسمى إرشادات مُقيِّم جودة البحث. في هذه الإرشادات ، يقدمون أربع فئات مفيدة لنية المستخدم:

معرفة الاستعلام - هذا يمثل البحث عن معلومات حول موضوع ما. البديل عن ذلك هو استعلام "اعرف بسيط" ، والذي يحدث عندما يبحث المستخدمون بإجابة معينة في الاعتبار.
القيام بالاستعلام - يعكس هذا الرغبة في الانخراط في نشاط معين ، مثل الشراء عبر الإنترنت أو التنزيل. يمكن تحديد كل هذه الاستعلامات من خلال الشعور "بالتفاعل".
استعلام موقع الويب - هذا عندما يبحث المستخدمون عن موقع ويب أو صفحة معينة. تشير عمليات البحث هذه إلى معرفة مسبقة بموقع ويب أو علامة تجارية معينة.
استعلام الزيارة الشخصية - يبحث المستخدم عن موقع فعلي ، مثل متجر فعلي أو مطعم.

أعطت النظرية الكامنة وراء LSI - تحديد المعنى السياقي للكلمة داخل عبارة - ميزة تنافسية لـ Google. ومع ذلك ، بدأت الفكرة في الانتشار بأن "كلمات LSI" أصبحت فجأة تذكرة ذهبية للنجاح في تحسين محركات البحث.

هل توجد "كلمات LSI" بالفعل؟

لا تزال العديد من المنشورات البارزة مؤيدة حازمة للكلمات الرئيسية LSI. ومع ذلك ، فإن العديد من المصادر ، مثل محلل اتجاهات مشرفي المواقع من Google ، جون مولر ، تؤكد أنها مجرد أسطورة. بدأت هذه المصادر في إثارة النقاط التالية:

تم تطوير LSI قبل شبكة الويب العالمية ولم يكن من المفترض أن يتم تطبيقه على مجموعة بيانات ديناميكية كبيرة كهذه.
انتهت صلاحية براءة الاختراع الأمريكية بشأن الفهرسة الدلالية الكامنة ، التي مُنحت إلى منظمة تدعى Bell Communications Research Inc. في عام 1989 ، في عام 2008. لذلك ، وفقًا لبيل سلاوسكي ، فإن استخدام Google LSI سيكون أقرب إلى "استخدام جهاز تلغراف ذكي للاتصال بـ" شبكة الجوال.
تستخدم Google RankBrain ، وهي طريقة للتعلم الآلي تقوم بتحويل أحجام النص إلى "متجهات" - وهي كيانات رياضية تساعد أجهزة الكمبيوتر على فهم اللغة المكتوبة. يستوعب RankBrain الويب كمجموعة بيانات تتوسع باستمرار ، مما يجعلها قابلة للاستخدام من قِبل Google ، على عكس LSI.

في النهاية ، يكشف LSI حقيقة يجب على المسوقين الالتزام بها: استكشاف سياق فريد للكلمة يساعدنا على فهم نية المستخدم بشكل أفضل من الكلمات الرئيسية المحشوة بالمحتوى. ومع ذلك ، فإن هذا لا يؤكد بالضرورة أن تصنيف Google يعتمد على LSI. لذلك ، هل يمكن أن نقول بأمان أن إل إس آي (LSI) يعمل في تحسين محركات البحث كفلسفة ، وليس كعلم دقيق؟

دعنا نعود إلى اقتباس Roger Montti حول LSI باعتباره "عجلات تدريب لمحركات البحث". بمجرد أن تتعلم ركوب الدراجة ، فإنك تميل إلى خلع عجلات التدريب. هل يمكننا افتراض أنه في عام 2020 ، لم تعد Google تستخدم عجلات التدريب؟

يمكننا النظر في تحديث خوارزمية Google الأخير. في أكتوبر 2019 ، أعلن Pandu Nayak ، نائب رئيس Search ، أن Google بدأت في استخدام نظام AI المسمى BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات). يؤثر هذا على أكثر من 10٪ من جميع استعلامات البحث ، وهو أحد أكبر تحديثات Google في السنوات الأخيرة.

عند تحليل استعلام بحث ، يأخذ BERT في الاعتبار كلمة واحدة فيما يتعلق بجميع الكلمات في تلك العبارة المعينة. هذا التحليل ثنائي الاتجاه ، حيث يأخذ في الاعتبار جميع الكلمات قبل أو بعد كلمة معينة. يمكن أن تؤثر إزالة كلمة واحدة بشكل كبير على كيفية فهم BERT للسياق الفريد للعبارة.

يمثل هذا تباينًا من LSI ، الذي يحذف أي كلمات توقف من تحليله. يوضح المثال أدناه كيف يمكن أن تؤدي إزالة كلمات التوقف إلى تغيير كيفية فهمنا لعبارة ما:

على الرغم من كونه كلمة توقف ، فإن "العثور" هو جوهر البحث ، والذي يمكننا تعريفه على أنه استعلام "زيارة شخصية".

إذن ماذا يجب أن يفعل المسوقون؟

في البداية ، كان يُعتقد أن LSI قادرة على مساعدة Google في مطابقة المحتوى مع الاستعلامات ذات الصلة. ومع ذلك ، يبدو أن الجدل الدائر في التسويق حول استخدام LSI لم يصل بعد إلى نتيجة واحدة. على الرغم من ذلك ، لا يزال بإمكان المسوقين اتخاذ العديد من الخطوات لضمان بقاء عملهم ملائمًا من الناحية الاستراتيجية.

أولاً ، يجب تحسين المقالات ونسخ الويب والحملات المدفوعة لتشمل المرادفات والمتغيرات. يفسر هذا الطرق التي يستخدمها الأشخاص ذوو النوايا المتشابهة للغة بشكل مختلف.

يجب على المسوقين الاستمرار في الكتابة بسلطة ووضوح. هذا أمر لا بد منه إذا كانوا يريدون أن يحل محتواهم مشكلة معينة. قد تكون هذه المشكلة نقص المعلومات أو الحاجة إلى منتج أو خدمة معينة. بمجرد قيام المسوقين بذلك ، فإنه يظهر أنهم يفهمون حقًا نية المستخدم.

أخيرًا ، يجب عليهم أيضًا استخدام البيانات المنظمة بشكل متكرر. سواء أكان موقعًا على الويب أو وصفة أو أسئلة شائعة ، فإن البيانات المنظمة توفر السياق لـ Google لفهم ما تقوم بالزحف إليه.