Рост мультимодального и многоязычного поиска

Опубликовано: 2022-01-06

Расширение поиска за пределы текстовых запросов и устранение языковых барьеров — последние тенденции, формирующие будущее поисковых систем. Благодаря новым функциям на основе искусственного интеллекта поисковые системы стремятся улучшить качество поиска и в то же время предоставить новые инструменты, помогающие пользователям получать конкретную информацию. В этой статье мы обратимся к растущей теме мультимодальных и многоязычных поисковых систем . Мы также покажем результаты демо-инструмента поиска, который мы создали в Wordlift.

Следующее поколение поисковых систем

Хороший пользовательский опыт включает в себя несколько аспектов взаимодействия между пользователями и поисковыми системами. От дизайна пользовательского интерфейса и удобства его использования до понимания целей поиска и разрешения его неоднозначных запросов крупные поисковые системы готовят поисковые инструменты следующего поколения .

Мультимодальный поиск

Один из способов описать мультимодальную поисковую систему — представить систему, способную обрабатывать текст и изображения в одном запросе . Такие поисковые системы позволят пользователям выражать свои входные запросы через мультимодальный поисковый интерфейс и, как результат, обеспечат более естественный и интуитивно понятный поиск.

На веб-сайте электронной коммерции мультимодальная поисковая система позволит извлекать соответствующие документы из проиндексированной базы данных. Релевантность оценивается путем измерения сходства доступных продуктов с заданным запросом в более чем одном формате, таком как текст, изображение, аудио или видео. В результате эта поисковая система представляет собой мультимодальную систему, поскольку лежащие в ее основе механизмы способны обрабатывать различные модальные входные данные, т. е. форматы, в одно и то же время.

Например, поисковый запрос может иметь форму «цветочное платье». В этом случае в интернет-магазине доступно большое количество цветочных платьев. Однако поисковая система возвращает платья, которые на самом деле не удовлетворяют пользователя, как показано на следующем рисунке.


Возвращаются результаты по запросу «цветочное платье».

Чтобы обеспечить удобство поиска и выдавать высокорелевантные результаты, мультимодальная поисковая система может объединять текст и изображение в одном запросе . В этом случае пользователь предоставляет образец изображения желаемого товара. При выполнении этого поиска как мультимодального поиска входным изображением является платье с цветочным принтом, показанное на следующем изображении.


Предоставленное пользователем изображение для мультимодального запроса.

В этом сценарии первая часть запроса остается прежней (платье с цветочным принтом), а вторая часть добавляет к многомодальному запросу визуальный аспект. Возвращаемые результаты дают платья, похожие на цветочное платье, предоставленное пользователем. В этом варианте использования точно такое же платье доступно и, следовательно, является первым результатом, возвращаемым среди других похожих платьев.


Соответствующие результаты поиска возвращаются в ответ на мультимодальный запрос.

МАМА

Google представила новую технологию, помогающую пользователям решать сложные поисковые задачи. Эта новая технология, называемая MUM, означает многозадачную унифицированную модель и способна преодолевать языковые барьеры и интерпретировать информацию в различных форматах контента, например веб-страницы и изображения.

Google Lens — один из первых продуктов, использующих преимущества объединения изображений и текста в один запрос. В контексте поиска MUM упростит пользователям поиск шаблонов, таких как определенный цветочный узор, на изображении, которое предоставляет пользователь.

MUM — это новая веха ИИ для понимания информации, представленной здесь:

«Хотя мы только начинаем изучать MUM, это важная веха на пути к будущему, когда Google сможет понять все различные способы, которыми люди естественным образом общаются и интерпретируют информацию».

Чтобы узнать больше о мультимодальном поиске Google MUM, ознакомьтесь с этой веб-историей:

Расширение поиска по языкам

Хотя изображение не зависит от языка, условия поиска зависят от языка. Задача проектирования многоязычной системы сводится к построению языковых моделей для широкого спектра языков.

Многоязычный поиск

Одним из основных ограничений современных поисковых систем является то, что они извлекают документы, написанные или аннотированные на языке, на котором пользователь написал поисковый запрос. Как правило, эти системы работают только на английском языке. Такие одноязычные поисковые системы ограничивают полезность этих систем в поиске полезной информации, написанной на другом языке.

С другой стороны, многоязычные системы принимают запрос на одном языке и извлекают документы, проиндексированные на других языках. На самом деле поисковая система является многоязычной, если она способна извлекать из базы данных соответствующие документы, сопоставляя содержимое документа или заголовки, написанные на одном языке, с текстовым запросом на другом языке. Методы сопоставления варьируются от синтаксических механизмов до подходов семантического поиска.

Объединение предложений на разных языках с визуальными понятиями — это первый шаг к использованию межъязыковых моделей визуального языка . Хорошая новость заключается в том, что визуальные понятия интерпретируются всеми людьми почти одинаково. Эти системы, способные включать информацию из более чем одного источника и на более чем одном языке, называются мультимодальными многоязычными системами . Однако объединение изображения и текста не всегда возможно для всех языков в больших масштабах, как обсуждается в следующем разделе.

[Пример успеха] Стимулирование роста на новых рынках с помощью SEO на странице

Когда Springly задумалась о выходе на рынок Северной Америки, SEO на странице было определено как один из ключей к успешному выходу на новый рынок. Узнайте, как перейти от 0 к успеху с помощью технического SEO для вашей контент-стратегии.
Читать тематическое исследование

От МАМЫ к МУРАЛУ

Растут усилия по применению передовых методов глубокого обучения и обработки естественного языка в поисковых системах. Google представил новую исследовательскую работу, которая позволяет пользователям выражать слова с помощью изображений. Например, слово «валиха» относится к инструменту из трубчатой ​​цитры, на котором играют малагасийцы. У этого слова нет прямого перевода на большинство языков, но его можно легко описать с помощью изображений.

Новая система, получившая название MURA, расшифровывается как Мультимодальный многозадачный поиск на разных языках. Это позволяет решить проблему слов в одном языке, которые могут не иметь прямого перевода на целевой язык. С такими проблемами многие предварительно обученные многоязычные модели не смогут найти семантически связанные слова или точно перевести слова на язык с ограниченными ресурсами или с него. На самом деле, MURAL может решить многие реальные проблемы:

  • Слова, которые передают разное ментальное значение на разных языках: Одним из примеров является слово «свадьба» на английском и хинди, которое передает разные ментальные образы, как показано на следующем изображении из блога Google.
  • Нехватка данных для языков с ограниченными ресурсами в Интернете: 90% пар текст-изображение в Интернете принадлежат к 10 языкам с высоким уровнем ресурсов.


Изображения взяты из Википедии, предоставлены Psoni2402 (слева) и Дэвиду МакКэндлессу (справа) с лицензией CC BY-SA 4.0.

Уменьшение двусмысленности запросов и решение проблемы нехватки пар изображение-текст для языков с ограниченными ресурсами — еще одно улучшение в поисковых системах следующего поколения на базе ИИ.

Многоязычный и мультимодальный поиск в действии

В этой работе мы используем существующие инструменты и доступные модели языка и видения для разработки мультимодальной многоязычной системы, которая выходит за рамки одного языка и может обрабатывать более одной модальности одновременно .

Прежде всего, для разработки многоязычной системы важно семантически соединить слова, происходящие из разных языков. Во-вторых, чтобы сделать систему мультимодальной, необходимо связать представление языков с изображениями. В результате это большой шаг к давней цели многоязычного мультимодального поиска.

Контекст

Основным вариантом использования этой мультимодальной многоязычной системы является возврат релевантных изображений из набора данных по запросу, объединяющему изображение и текст одновременно. В этом ключе мы покажем несколько примеров, иллюстрирующих различные мультимодальные и многоязычные сценарии.

В основе этого демонстрационного приложения лежит Jina AI, экосистема нейронного поиска с открытым исходным кодом. Нейронный поиск, основанный на извлечении информации из глубокой нейронной сети (или нейронном IR), является привлекательным решением для построения мультимодальной системы. В этой демонстрации мы используем архитектуру MPNet Transformer от Hugging Face, multilingual-mpnet-base-v2, для обработки текстовых описаний и подписей. Что касается визуальной части, мы используем MobileNetV2.

Далее мы представляем серию тестов, чтобы продемонстрировать возможности многоязычных и мультимодальных поисковых систем . Прежде чем представить результаты нашего демонстрационного инструмента, вот список ключевых элементов, описывающих эти тесты:

  • База данных состоит из 1 тыс. изображений, на которых изображены люди, играющие музыку. Эти изображения взяты из общедоступного набора данных Flickr30K.
  • Каждое изображение имеет подпись на английском языке.

Шаг 1. Начните с текстового запроса на английском языке.

Во-первых, мы начнем с текстового запроса, отражающего текущий способ работы большинства поисковых систем. Запрос «группа музыкантов».

Запрос

Результаты, достижения

Наша демонстрационная поисковая система на основе Jina возвращает изображения музыкантов, которые семантически связаны с входным запросом. Однако это может быть не тот тип музыкантов, который нам нужен.

Шаг 2: Добавление мультимодальности

Давайте теперь добавим мультимодальность, выдав запрос, который сочетает в себе как предыдущий текстовый запрос, так и изображение. Изображение представляет собой более точное представление музыкантов, которых мы ищем.

Прежде всего, пользовательский интерфейс должен поддерживать выдачу таких типов запросов. Затем мы должны присвоить вес, чтобы сбалансировать важность каждой модальности при получении результатов. В этом случае и текст, и изображение имеют равный вес (0,5). Как мы видим ниже, новые результаты поиска включают ряд изображений, которые визуально похожи на входной запрос изображения.

Запрос

Результаты, достижения

Шаг 3: Присвоение изображению максимального веса

Также можно придать максимальный вес изображению. Это исключит входной текст из запроса. В этом случае больше изображений, которые визуально похожи на входное изображение, возвращаются и ранжируются на первых позициях. Следует иметь в виду, что результаты ограничены изображениями, доступными в наборе данных.

Запрос

Результаты, достижения

Шаг 4. Тестирование многоязычного поиска

Теперь попробуем выполнить тот же запрос, но на разных языках. Вес текста увеличен, чтобы проиллюстрировать всю мощь этой многоязычной системы. Напоминаем, что подписи к изображениям только на английском языке. Поиск повторяется для охвата следующих языков:

  • Французский: Groupe de musiciens
  • Итальянский: Gruppo di musicisti
  • Немецкий: Gruppe von Musikern

Независимо от языка входного запроса возвращаемые результаты актуальны и согласуются между тремя языками. Результаты показаны ниже.

Результаты запроса на французском языке

Результаты запроса на итальянском языке

Результаты запроса на немецком языке

Мультимодальное многоязычное будущее поиска

В ближайшие годы искусственный интеллект будет все больше преобразовывать поиск и открывать для людей совершенно новые способы выражать свои запросы и исследовать информацию. Как уже объявил Google, понимание информации с помощью MUM представляет собой веху ИИ. В будущем больше систем на основе ИИ будет включать в себя функции и улучшения, которые варьируются от обеспечения более удобного поиска до ответов на сложные вопросы и от преодоления языковых барьеров до объединения различных режимов поиска в один запрос.