Çok Modlu ve Çok Dilli Aramanın Yükselişi

Yayınlanan: 2022-01-06

Aramayı metin sorgularının ötesine genişletmek ve dil engellerini kaldırmak, arama motorlarının geleceğini şekillendiren son trendlerdir. Arama motorları, yapay zeka destekli yeni özelliklerle daha iyi bir arama deneyimi geliştirmeyi ve aynı zamanda kullanıcıların belirli bilgileri almasına yardımcı olacak yeni araçlar getirmeyi hedefliyor. Bu yazımızda yükselen çok modlu ve çok dilli arama sistemleri konusunu ele alacağız. Ayrıca Wordlift'te oluşturduğumuz bir demo arama aracının sonuçlarını da göstereceğiz.

Yeni nesil arama motorları

İyi bir kullanıcı deneyimi, kullanıcılar ve arama motorları arasındaki çoklu etkileşim yönlerini kapsar. Kullanıcı arayüzünün tasarımından ve kullanılabilirliğinden arama amacının anlaşılmasına ve belirsiz sorgularının çözülmesine kadar, büyük arama motorları yeni nesil arama araçlarını hazırlamaktadır.

Çok modlu arama

Çok modlu bir arama motorunu tanımlamanın bir yolu, metin ve resimleri tek bir sorguda işleyebilen bir sistem düşünmektir. Bu tür arama motorları, kullanıcıların girdi sorgularını çok modlu bir arama arabirimi aracılığıyla ifade etmelerine olanak tanır ve sonuç olarak daha doğal ve sezgisel bir arama deneyimi sağlar.

Bir e-ticaret web sitesinde, çok modlu bir arama motoru, dizinlenmiş bir veritabanından ilgili belgelerin alınmasına izin verir. Alaka düzeyi, metin, resim, ses veya video gibi birden fazla biçimde belirli bir sorguyla mevcut ürünlerin benzerliği ölçülerek değerlendirilir. Sonuç olarak, bu arama motoru çok modlu bir sistemdir çünkü altında yatan mekanizmalar farklı girdi modlarını, yani biçimleri aynı anda işleyebilmektedir.

Örneğin, bir arama sorgusu "çiçekli elbise" şeklini alabilir. Bu durumda, web mağazasında çok sayıda çiçekli elbise mevcuttur. Ancak, arama motoru, aşağıdaki şekilde gösterildiği gibi, kullanıcı için gerçekten tatmin edici olmayan elbiseler döndürür.


"Çiçekli elbise" sorgusu için döndürülen sonuçlar.

İyi bir arama deneyimi sağlamak ve yüksek düzeyde alakalı sonuçlar döndürmek için, çok modlu bir arama motoru, bir metni ve bir resmi tek bir sorguda birleştirme yeteneğine sahiptir . Bu durumda kullanıcı istediği ürünün örnek görüntüsünü sunar. Bu aramayı çok modlu bir arama olarak çalıştırırken, giriş resmi aşağıdaki resimde gösterilen çiçekli bir elbisedir.


Çok modlu sorgu için kullanıcı tarafından sağlanan görüntü.

Bu senaryoda, sorgunun ilk kısmı aynı kalır (çiçek elbisesi) ve ikinci kısım görsel yönü çok modlu sorguya ekler. Döndürülen sonuçlar, kullanıcının sağladığı çiçekli elbiseye benzer elbiseler verir. Bu kullanım durumunda, aynı elbise mevcuttur ve bu nedenle, diğer benzer elbiseler arasında döndürülen ilk sonuçtur.


Çok modlu sorguya yanıt olarak döndürülen ilgili arama sonuçları.

ANNE

Google, karmaşık arama görevlerinde kullanıcılara yardımcı olmak için yeni bir teknoloji tanıttı. MUM adı verilen bu yeni teknoloji, Multitask Unified Model'in kısaltmasıdır ve dil engellerini ortadan kaldırabilir ve web sayfaları ve resimler gibi farklı içerik formatlarında bilgileri yorumlayabilir .

Google Lens , resimleri ve metni tek bir sorguda birleştirme avantajından yararlanan ilk ürünlerden biridir. Bir arama bağlamında, MUM, kullanıcıların sağladığı bir görüntüde belirli bir çiçek deseni gibi desenleri bulmasını kolaylaştırır.

MUM, burada sunulan bilgileri anlamak için yeni bir AI kilometre taşıdır:

"MUM'u keşfetmenin ilk günlerinde olsak da, bu, Google'ın insanların doğal olarak iletişim kurabileceği ve bilgileri yorumlayabileceği tüm farklı yolları anlayabileceği bir geleceğe doğru önemli bir kilometre taşı."

Google'ın MUM multimodal araması hakkında daha fazla bilgi edinmek için bu web hikayesine bakın:

Aramayı diller arasında genişletme

Görüntü dilden bağımsız olsa da, arama terimleri dile özgüdür. Çok dilli bir sistem tasarlama görevi, çok çeşitli diller arasında dil modelleri oluşturmaya dayanır.

Çok dilli arama

Mevcut arama sistemlerinin önemli bir sınırlaması, kullanıcının arama sorgusunu yazdığı dilde yazılmış veya açıklama eklenmiş belgeleri almalarıdır. Genel olarak, bu motorlar yalnızca İngilizcedir. Bu tür tek dilli arama motorları, farklı bir dilde yazılmış yararlı bilgileri bulmada bu sistemlerin kullanışlılığını sınırlar.

Öte yandan, çok dilli sistemler bir dilde bir sorguyu kabul eder ve diğer dillerde dizine alınmış belgeleri alır. Gerçekte, bir arama sistemi, bir dilde yazılmış belgenin içeriğini veya başlıklarını başka bir dildeki metin sorgusu ile eşleştirerek veri tabanından ilgili belgeleri alabiliyorsa çok dillidir. Eşleştirme teknikleri, sözdizimsel mekanizmalardan anlamsal arama yaklaşımlarına kadar uzanır.

Farklı dillerdeki cümleleri görsel kavramlarla eşleştirmek, diller arası görsel dil modellerinin kullanımını teşvik etmek için ilk adımdır. İyi haber şu ki, görsel kavramlar tüm insanlar tarafından neredeyse aynı şekilde yorumlanıyor. Birden fazla kaynaktan ve birden fazla dilde bilgi birleştirebilen bu sistemlere çok modlu çok dilli sistemler denir. Bununla birlikte, aşağıdaki bölümde tartışıldığı gibi, görüntü-metnin büyük ölçekte eşleştirilmesi her zaman tüm diller için uygun değildir.

[Örnek Olay] Sayfa içi SEO ile yeni pazarlarda büyüme sağlamak

Springly, Kuzey Amerika pazarına açılmaya başladığında, sayfa içi SEO, yeni bir pazarda başarılı bir başlangıcın anahtarlarından biri olarak tanımlandı. İçerik stratejiniz için teknik SEO ile 0'dan başarıya nasıl gideceğinizi öğrenin.
Örnek olayı okuyun

MUM'dan MURAL'a

Arama motorlarına gelişmiş derin öğrenme ve doğal dil işleme tekniklerini uygulamaya yönelik artan çabalar var. Google, kullanıcıların resimleri kullanarak kelimeleri ifade etmelerine olanak tanıyan yeni bir araştırma çalışması sundu. Örneğin “valiha” kelimesi, Madagaskarlılar tarafından çalınan ve boru kanunundan yapılmış bir çalgıyı ifade eder. Bu kelimenin çoğu dile doğrudan çevirisi yoktur, ancak resimler kullanılarak kolayca tanımlanabilir.

MURA adı verilen yeni sistem, Multimodal, Multi-task Retrieval Across Languages ​​anlamına geliyor. Bir dildeki kelimelerin hedef dile doğrudan tercümesi olmayabilecek probleminin ele alınmasını sağlar. Bu tür sorunlarla birlikte, önceden eğitilmiş birçok çok dilli model, anlamsal olarak ilişkili sözcükleri bulamamakta veya kaynakları yetersiz bir dile ya da dilden sözcükleri doğru bir şekilde çevirememektedir. Aslında, MURAL birçok gerçek dünya sorununu çözebilir:

  • Farklı dillerde farklı zihinsel anlamlar taşıyan kelimeler: Bir örnek, Google blogundan aşağıdaki resimde gösterildiği gibi farklı zihinsel görüntüler taşıyan İngilizce ve Hintçe "düğün" kelimesidir.
  • Web'de yetersiz kaynağa sahip diller için veri kıtlığı: Web'deki metin-görüntü çiftlerinin %90'ı yüksek düzeyde kaynağa sahip ilk 10 dile aittir.


Görüntüler wikipedia'dan alınmıştır, CC BY-SA 4.0 lisansıyla Psoni2402 (solda) ve David McCandless'a (sağda) aktarılmıştır.

Sorguların belirsizliğini azaltmak ve yetersiz kaynaklı diller için görüntü-metin çiftlerinin kıtlığı sorununa bir çözüm sağlamak, AI tarafından desteklenen yeni nesil arama motorlarına yönelik bir başka gelişmedir.

Çok dilli ve çok modlu arama iş başında

Bu çalışmada, tek bir dilin ötesine geçen ve aynı anda birden fazla modaliteyi işleyebilen çok modlu çok dilli bir sistem tasarlamak için mevcut araçları ve mevcut dil ve vizyon modellerini kullanıyoruz.

Her şeyden önce, çok dilli bir sistem tasarlamak için farklı dillerden gelen kelimeleri anlamsal olarak bağlamak önemlidir. İkincisi, sistemi çok modlu hale getirmek için dillerin temsilini görüntülerle ilişkilendirmek gerekir. Sonuç olarak, bu, çok modlu bir çok dilli aramanın uzun süredir devam eden hedefine doğru büyük bir adımdır .

Bağlam

Bu çok modlu çok dilli sistemin birincil kullanım durumu, bir görüntü ve bir metni aynı anda birleştiren bir sorgu verilen veri kümesinden ilgili görüntüleri döndürmektir. Bu bağlamda, çeşitli çok modlu ve çok dilli senaryoları gösteren bazı örnekler göstereceğiz.

Bu demo uygulamanın omurgası, açık kaynaklı bir sinirsel arama ekosistemi olan Jina AI tarafından desteklenmektedir. Derin sinir ağı bilgi alımı (veya sinirsel IR) tarafından desteklenen sinir araması, çok modlu bir sistem oluşturmak için çekici bir çözümdür. Bu demoda, metinsel açıklamaları ve altyazıları işlemek için Hugging Face, çok dilli-mpnet-base-v2'den MPNet Transformer mimarisini kullanıyoruz. Görsel kısımda ise MobileNetV2 kullanıyoruz.

Aşağıda, çok dilli ve çok modlu arama motorlarının gücünü göstermek için bir dizi test sunuyoruz . Demo aracımızın sonuçlarını sunmadan önce, bu testleri açıklayan temel unsurların bir listesini burada bulabilirsiniz:

  • Veritabanı, müzik çalan insanları gösteren 1k görüntüden oluşuyor. Bu görüntüler genel veri kümesi Flickr30K'dan alınmıştır.
  • Her görüntünün İngilizce yazılmış bir başlığı vardır.

1. Adım: İngilizce bir metin sorgusu ile başlayın

İlk olarak, çoğu arama motorunun mevcut çalışma şeklini yansıtan bir metin sorgusu ile başlıyoruz. "Müzisyenler grubu" sorgusu.

Sorgu

Sonuçlar

Jina tabanlı demo arama motorumuz, giriş sorgusuyla anlamsal olarak ilişkili müzisyenlerin resimlerini döndürür. Ancak bu, bizim istediğimiz türden müzisyenler olmayabilir.

2. Adım: Çok modluluk ekleme

Şimdi hem önceki metin sorgusunu hem de görüntüyü birleştiren bir sorgu yayınlayarak çok modluluk ekleyelim. Resim, aradığımız müzisyenlerin daha doğru bir temsilini temsil ediyor.

Her şeyden önce, kullanıcı arayüzünün bu tür sorguların yayınlanmasını desteklemesi gerekir. Ardından, sonuçları alırken her modalitenin önemini dengelemek için bir ağırlık atamamız gerekir. Bu durumda, hem metin hem de görüntü eşit ağırlığa (0,5) sahiptir. Aşağıda görebileceğimiz gibi, yeni arama sonuçları, giriş görseli sorgusuna görsel olarak benzeyen birkaç görsel içermektedir.

Sorgu

Sonuçlar

Adım 3: Görüntüye maksimum ağırlık atama

Görüntüye maksimum ağırlık vermek de mümkündür. Bunu yapmak, giriş metnini sorgudan hariç tutar. Bu durumda, giriş görüntüsüne görsel olarak benzeyen daha fazla görüntü döndürülür ve ilk konumlarda sıralanır. Akılda tutulması gereken bir şey, sonuçların veri setinde bulunan görüntülerle sınırlı olmasıdır.

Sorgu

Sonuçlar

4. Adım: Çok dilli aramayı test etme

Şimdi aynı sorguyu farklı diller kullanarak yayınlamaya çalışalım. Bu çok dilli sistemin tam gücünü göstermek için metnin ağırlığı en üst düzeye çıkarılır. Lütfen resimlerin altyazılarının yalnızca İngilizce olduğunu unutmayın. Arama, aşağıdaki dilleri kapsayacak şekilde tekrarlanır:

  • Fransızca: Groupe de musiciens
  • İtalyanca: Gruppo di musicisti
  • Almanca: Gruppe von Musikern

Girdi sorgusunun dilinden bağımsız olarak, döndürülen sonuçlar alakalıdır ve üç dilde tutarlıdır. Sonuçlar aşağıda gösterilmiştir.

Fransızca sorgu için sonuçlar

İtalyanca sorgu için sonuçlar

Almanca sorgu için sonuçlar

Aramanın çok modlu çok dilli geleceği

Önümüzdeki yıllarda, yapay zeka aramayı giderek daha fazla dönüştürecek ve insanların sorgularını ifade etmeleri ve bilgileri keşfetmeleri için tamamen yeni yolların kilidini açacak. Google'ın daha önce duyurduğu gibi, MUM ile bilgileri anlamak bir AI dönüm noktasını temsil eder. Gelecekte daha fazla AI destekli sistem, daha iyi bir arama deneyimi sağlamaktan karmaşık soruları yanıtlamaya ve dil engellerini yıkmaktan farklı arama modlarını tek bir sorguda birleştirmeye kadar uzanan özellikler ve iyileştirmeler içerecektir.