«Яндекс Поиск»: 10 лет с нейросетями

«Применение нейросетевых технологий «Яндекс» началось в 2010-х годах, что стало результатом многолетнего изучения машинного обучения. Благодаря этим разработкам сервисы компании стали более удобными и быстрыми: так, сейчас пользователи «Поиска» могут получать более развернутые ответы на свои вопросы, включающие текст и изображения.

Функциональность поиска по изображениям в «Яндексе», основанная на нейронных сетях, была впервые внедрена 5 декабря 2014 года. За прошедшее время эти технологии нашли применение в различных сферах, включая ранжирование веб-ресурсов, перевод текстовых материалов и поиск объектов на фотографиях. Нейронные сети прошли значительный путь развития, стали более доступными как для обычных пользователей, так и для организаций. В частности, генеративные нейросети открывают возможности для создания изображений, текстов, видео и других видов контента.

Распознавание и поиск изображений, схожих по смыслу, не стали первой функцией, в которую «Яндекс» интегрировал нейросеть. Еще в 2012 году компания применяла базовую нейронную сеть для прогнозирования дорожных заторов, а в 2013-м — для распознавания речи в технологии SpeechKit.

В 2015 году в поисковой выдаче картинок началось использование нейронных сетей для обработки текстовых запросов. Ранее релевантность изображения определялась по тексту, окружающему его на веб-сайте, однако новая модель позволила оценивать само изображение, сопоставляя его с текстовым запросом в общем семантическом пространстве.

В 2016 году поисковый алгоритм «Палех» стал первым, в котором нейросеть была применена для ранжирования веб-сайтов. Разработанная компанией «Яндекс» модель, аналогичная DSSM (Deep Semantic Similarity Model), использовалась для определения смысловой близости между запросами пользователей и заголовками веб-страниц. В 2017 году, с выходом обновления «Королев», нейросеть начали использовать для анализа содержимого страниц, что позволило повысить качество ответов на нестандартные поисковые запросы.

В 2020 году для определения позиций сайтов в поисковой выдаче впервые применили нейронную сеть YATI (Yet Another Transformer with Improvements) — это усовершенствованная версия «трансформера», разработанная специально для работы в реальном времени в «Поиске». Данное обновление позволило добиться наиболее значительного улучшения качества ранжирования сайтов со времени внедрения «Матрикснета» в 2009 году.

В 2017 году «Яндекс» внедрил нейронные сети в свой машинный перевод, что позволило «Переводчику» учитывать контекст при переводе фраз. Функция перевода также стала доступна в «Поиске»: для этого достаточно ввести запрос [translation перевод], и система предоставит мгновенный результат.

В 2021 году «Яндекс» внедрил полноценную функцию перевода поисковых запросов: когда на русском языке не удается найти релевантные результаты, система начинает поиск на англоязычных ресурсах и демонстрирует переведенные варианты. В тот же период была добавлена возможность перевода видео непосредственно в «Поиске» и «Браузере», что позволило расширить доступ к информации, преодолевая языковые ограничения.

Основная задача поисковой системы «Поиск» – содействие пользователям в решении их задач. Чтобы это обеспечить, «Яндекс» предоставляет не только перечень сайтов, но и оперативный ответ на запрос, подкрепленный ссылками на использованные источники. До недавнего времени для генерации подобных кратких ответов применялась языковая модель YaLM, однако с 2024 года, благодаря внедрению нейросети нового поколения YandexGPT, поиск стал эффективнее анализировать сложные вопросы и предоставлять точные ответы.

В 2024 году «Яндекс» впервые интегрировал в поисковую систему мультимодальную VLM-нейросеть, которая объединяет возможности работы с текстовыми и визуальными моделями. Это позволяет пользователям «Поиска» задавать вопросы, включающие как текст, так и изображение, и получать развернутые ответы.