Creșterea căutării multimodale și multilingve

Publicat: 2022-01-06

Extinderea căutării dincolo de interogările textuale și eliminarea barierelor lingvistice sunt tendințele recente care modelează viitorul motoarelor de căutare. Cu noile funcții bazate pe inteligență artificială, motoarele de căutare caută să promoveze o experiență de căutare mai bună și, în același timp, să aducă noi instrumente pentru a ajuta utilizatorii să recupereze informații specifice. În acest articol, vom aborda subiectul în creștere al sistemelor de căutare multimodale și multilingve . Vom arăta, de asemenea, rezultatele unui instrument de căutare demonstrativ pe care l-am creat la Wordlift.

Următoarea generație de motoare de căutare

O experiență bună de utilizator include mai multe aspecte de interacțiune între utilizatori și motoarele de căutare. De la proiectarea interfeței cu utilizatorul și capacitatea de utilizare a acesteia până la înțelegerea intenției de căutare și rezolvarea interogărilor sale ambigue, motoarele de căutare mari pregătesc următoarea generație de instrumente de căutare .

Căutare multimodală

O modalitate de a descrie un motor de căutare multimodal este să te gândești la un sistem care este capabil să gestioneze text și imagini într-o singură interogare . Astfel de motoare de căutare ar permite utilizatorilor să-și exprime interogările de intrare printr- o interfață de căutare multimodală și, ca rezultat, ar permite o experiență de căutare mai naturală și mai intuitivă.

Pe un site de comerț electronic, un motor de căutare multimodal ar permite regăsirea documentelor relevante dintr-o bază de date indexată. Relevanța este evaluată prin măsurarea similitudinii produselor disponibile cu o anumită interogare în mai multe formate, cum ar fi text, imagine, audio sau video. Ca urmare, acest motor de căutare este un sistem multimodal, deoarece mecanismele sale de bază sunt capabile să gestioneze diferite modali de intrare, adică formate, în același timp.

De exemplu, o interogare de căutare ar putea lua forma „rochie florală”. În acest caz, pe magazinul web sunt disponibile un număr mare de rochii florale. Cu toate acestea, motorul de căutare returnează rochii care nu sunt cu adevărat satisfăcătoare pentru utilizator, așa cum se arată în figura următoare.


Rezultate returnate pentru interogarea „rochie florală”.

Pentru a oferi o experiență de căutare bună și pentru a returna rezultate extrem de relevante, un motor de căutare multimodal este capabil să combine un text și o imagine într-o singură interogare . În acest caz, utilizatorul furnizează imaginea eșantion a produsului dorit. Când rulați această căutare ca căutare multimodală, imaginea de intrare este o rochie florală care este afișată în imaginea următoare.


Imagine furnizată de utilizator pentru interogarea multimodală.

În acest scenariu, prima parte a interogării rămâne aceeași (rochie florală), iar a doua parte adaugă aspectul vizual la interogarea multimodală. Rezultatele returnate dau rochii care sunt similare cu rochia florală pe care utilizatorul a oferit-o. În acest caz de utilizare, exact aceeași rochie este disponibilă și, prin urmare, este primul rezultat returnat împreună cu alte rochii similare.


Rezultate relevante ale căutării au fost returnate ca răspuns la interogarea multimodală.

MĂMICĂ

Google a introdus o nouă tehnologie pentru a ajuta utilizatorii cu sarcini complexe de căutare. Această nouă tehnologie, numită MUM, înseamnă Multitask Unified Model și este capabilă să înlăture barierele lingvistice și să interpreteze informații în diferite formate de conținut, cum ar fi pagini web și imagini.

Google Lens este unul dintre primele produse care profită de avantajul combinării imaginilor și textului într-o singură interogare. Într-un context de căutare, MUM ar face mai ușor pentru utilizatori să găsească modele, cum ar fi un anumit model floral într-o imagine pe care utilizatorul o oferă.

MUM este o nouă etapă AI pentru înțelegerea informațiilor, așa cum este prezentată aici:

„Deși ne aflăm în primele zile ale explorării MUM, este o etapă importantă către un viitor în care Google poate înțelege toate modurile diferite în care oamenii comunică și interpretează în mod natural informațiile.”

Pentru a afla mai multe despre căutarea multimodală MUM de la Google, consultați această poveste web:

Extinderea căutării în diferite limbi

În timp ce imaginea este independentă de limbă, termenii de căutare sunt specifici limbii. Sarcina de a proiecta un sistem multilingv se rezumă la construirea de modele lingvistice într-o gamă largă de limbi.

Căutare multilingvă

O limitare cheie a sistemelor de căutare actuale este că acestea preiau documente scrise sau adnotate în limba în care utilizatorul a scris interogarea de căutare. În general, aceste motoare sunt doar în limba engleză. Astfel de motoare de căutare monolingve limitează utilitatea acestor sisteme în găsirea de informații utile scrise într-o altă limbă.

Pe de altă parte, sistemele multilingve acceptă o interogare într-o limbă și preiau documente care sunt indexate în alte limbi. În realitate, un sistem de căutare este multilingv dacă este capabil să recupereze documente relevante din baza de date prin potrivirea conținutului documentului, sau subtitrări, scrise într-o limbă cu interogarea de text într-o altă limbă. Tehnicile de potrivire variază de la mecanisme sintaxicale la abordări de căutare semantică.

Asocierea propozițiilor în diferite limbi cu concepte vizuale este un prim pas pentru promovarea utilizării modelelor de limbă viziune interlingvistică . Vestea bună este că conceptele vizuale sunt interpretate aproape în același mod de către toți oamenii. Aceste sisteme, capabile să încorporeze informații din mai multe surse și în mai multe limbi, sunt numite sisteme multimodale multilingve . Cu toate acestea, împerecherea imagine-text nu este întotdeauna fezabilă pentru toate limbile la scară largă, așa cum se discută în secțiunea următoare.

[Studiu de caz] Stimularea creșterii pe noi piețe cu SEO pe pagină

Când Springly a început să se extindă pe piața din America de Nord, SEO pe pagină a fost identificat ca una dintre cheile unui început de succes pe o nouă piață. Aflați cum să treceți de la 0 la succes cu SEO tehnic pentru strategia dvs. de conținut.
Citiți studiul de caz

De la MUM la MURAL

Există eforturi tot mai mari pentru aplicarea tehnicilor avansate de învățare profundă și de procesare a limbajului natural la motoarele de căutare. Google a prezentat o nouă lucrare de cercetare care permite utilizatorilor să exprime cuvinte folosind imagini. De exemplu, cuvântul „valiha” se referă la un instrument făcut din tub cither și este cântat de poporul malgaș. Acest cuvânt nu are o traducere directă în majoritatea limbilor, dar ar putea fi ușor descris folosind imagini.

Noul sistem, numit MURA, înseamnă Multimodal, Multi-task Retrieval Across Languages. Permite abordarea problemei cuvintelor într-o singură limbă care poate să nu aibă o traducere directă într-o limbă țintă. Cu astfel de probleme, multe modele multilingve pregătite în prealabil nu ar reuși să găsească cuvinte legate semantic sau să traducă cu acuratețe cuvinte într-o limbă cu resurse insuficiente. De fapt, MURAL poate aborda multe probleme din lumea reală:

  • Cuvinte care transmit diferite semnificații mentale în diferite limbi: un exemplu este cuvântul „nunta” în engleză și hindi, care transmite diferite imagini mentale, așa cum se arată în următoarea imagine de pe blogul Google.
  • Lipsa datelor pentru limbile cu resurse insuficiente de pe web: 90% dintre perechile text-imagine de pe web aparțin primelor 10 limbi cu resurse ridicate.


Imaginile sunt preluate de pe wikipedia, creditate către Psoni2402 (stânga) și David McCandless (dreapta) cu licență CC BY-SA 4.0.

Reducerea ambiguității interogărilor și oferirea unei soluții la problema deficitului de perechi imagine-text pentru limbile cu resurse insuficiente reprezintă o altă îmbunătățire pentru următoarea generație de motoare de căutare alimentate de AI.

Căutare multilingvă și multimodală în acțiune

În această lucrare, folosim instrumentele existente și modelele de limbaj și viziune disponibile pentru a proiecta un sistem multimodal multilingv care depășește o singură limbă și poate gestiona mai multe modalități simultan .

În primul rând, pentru a proiecta un sistem multilingv este important să conectați semantic cuvintele care provin din limbi diferite. În al doilea rând, pentru a face sistemul multimodal, este necesar să se raporteze reprezentarea limbajelor la imagini. Drept urmare, acesta este un pas mare către obiectivul de lungă durată al unei căutări multimodale multilingve.

Contextul

Cazul de utilizare principal al acestui sistem multimodal multilingv este de a returna imagini relevante din setul de date, având în vedere o interogare care combină o imagine și un text în același timp. În acest sens, vom arăta câteva exemple care ilustrează diverse scenarii multimodale și multilingve.

Coloana vertebrală a acestei aplicații demonstrative este alimentată de Jina AI, un ecosistem de căutare neuronală open-source. Căutarea neuronală, alimentată de regăsirea informațiilor rețelei neuronale profunde (sau IR neural), este o soluție atractivă pentru construirea unui sistem multimodal. În această demonstrație, folosim arhitectura MPNet Transformer de la Hugging Face, multilingv-mpnet-base-v2, pentru a procesa descrierile textuale și legendele. În ceea ce privește partea vizuală, folosim MobileNetV2.

În cele ce urmează, vă prezentăm o serie de teste pentru a arăta puterea motoarelor de căutare multilingve și multimodale . Înainte de a prezenta rezultatele instrumentului nostru demonstrativ, iată o listă cu elemente cheie care descriu aceste teste:

  • Baza de date constă din 1.000 imagini care înfățișează oameni cântând muzică. Aceste imagini sunt preluate din setul de date public Flickr30K.
  • Fiecare imagine are o legendă scrisă în engleză.

Pasul 1: Începând cu o interogare de text în limba engleză

În primul rând, începem cu o interogare textuală care reflectă modul actual în care funcționează majoritatea motoarelor de căutare. Interogarea este „grup de muzicieni”.

Interogarea

Rezultatele

Motorul nostru de căutare demonstrativ bazat pe Jina returnează imagini ale muzicienilor care sunt legate semantic de interogarea de intrare. Cu toate acestea, acesta poate să nu fie tipul de muzicieni pe care ni-l dorim.

Pasul 2: Adăugarea multimodalității

Să adăugăm acum ceva multimodalitate prin lansarea unei interogări care combină atât interogarea textuală anterioară, cât și o imagine. Imaginea reprezintă o reprezentare mai exactă a muzicienilor pe care îi căutăm.

În primul rând, interfața de utilizare trebuie să accepte emiterea unor astfel de tipuri de interogări. Apoi, trebuie să atribuim o pondere pentru a echilibra importanța fiecărei modalități la preluarea rezultatelor. În acest caz, atât textul, cât și imaginea au o greutate egală (0,5). După cum putem vedea mai jos, noile rezultate ale căutării includ un număr de imagini care sunt vizual similare cu interogarea de imagine de intrare.

Interogarea

Rezultatele

Pasul 3: Atribuirea unei greutăți maxime imaginii

De asemenea, este posibil să acordați o greutate maximă imaginii. Procedând astfel, textul introdus va fi exclus din interogare. În acest caz, mai multe imagini care sunt similare vizual cu imaginea de intrare sunt returnate și clasate în primele poziții. Un lucru de reținut este că rezultatele sunt limitate la imaginile disponibile în setul de date.

Interogarea

Rezultatele

Pasul 4: Testarea căutării multilingve

Acum să încercăm să lansăm aceeași interogare, dar folosind limbi diferite. Greutatea textului este maximizată pentru a ilustra întreaga putere a acestui sistem multilingv. Vă rugăm să rețineți că legendele imaginilor sunt doar în limba engleză. Căutarea se repetă pentru a acoperi următoarele limbi:

  • Franceză: Groupe de musiciens
  • Italiană: Gruppo di musicisti
  • Germană: Gruppe von Musikern

Indiferent de limba interogării de intrare, rezultatele returnate sunt relevante și sunt consecvente în cele trei limbi. Rezultatele sunt prezentate mai jos.

Rezultatele interogării în franceză

Rezultatele interogării în italiană

Rezultatele interogării în germană

Viitorul multimodal multilingv al căutării

În următorii ani, inteligența artificială va transforma din ce în ce mai mult căutarea și va debloca modalități complet noi pentru ca oamenii să își exprime întrebările și să exploreze informații. După cum a anunțat deja Google, înțelegerea informațiilor cu MUM reprezintă o piatră de hotar AI. În viitor, mai multe sisteme bazate pe inteligență artificială ar include funcții și îmbunătățiri care variază de la oferirea unei experiențe de căutare mai bune până la răspunsul la întrebări sofisticate și de la distrugerea barierelor lingvistice până la combinarea diferitelor moduri de căutare într-o singură interogare.