Яндекс представил в Поиске новую ИИ-архитектуру, основанную на научных разработках

На конференции «День Поиска 2026» технический директор Яндекс Поиска Екатерина Серажим сообщила об объединении компанией подходов Mixture of Experts (MoE) и encoder-decoder («кодировщик-декодировщик»). В Яндексе отметили, что подобное сочетание методов до этого момента чаще встречалось в научных работах, нежели в реальных технологиях.

В последнее время ведущие поисковые системы в мире всё больше внимания уделяют предоставлению непосредственных ответов на поисковые запросы. Теперь, когда пользователь вводит запрос, помимо списка ссылок, он видит в верхней части результатов ответ, созданный нейросетью в режиме реального времени, в виде структурированного текста. Екатерина Серажим подчеркнула: «Генеративные ответы играют ключевую роль в обеспечении удобства пользователей. Они должны отвечать критериям Поиска: быть оперативными, краткими и демонстрировать высокую производительность при обработке большого количества запросов.

Чтобы справиться со сложной задачей, компания разрабатывает специализированный набор моделей — Alice AI Search, предназначенный для выполнения поисковых операций. «В течение последнего года мы внесли улучшения во все компоненты технологии — начиная с обучения предварительно обученных моделей и заканчивая оптимизацией инфраструктуры», — отметила она.

Читайте также:  Роботы Boston Dynamics исполнили коллективный танец

По ее словам, этим моделям необходима и специфическая архитектура, поскольку в Поиске они должны практически моментально обрабатывать значительный объем данных из веб-документов. Это отличается от обычного способа работы нейронных сетей при создании ответов. Поэтому необходимо применять технологии, которые гарантируют высокое качество результатов при ограниченной вычислительной мощности.

По словам технического директора, в ходе экспериментов архитектура «энкодер-декодер», в которой одна часть модели анализирует запрос и документы, а другая генерирует ответ, продемонстрировала более эффективные результаты по сравнению с традиционными языковыми моделями при работе с большими данными. Для обеспечения высокой скорости работы без ущерба для качества применялся метод Mixture of Experts (MoE).

Данный архитектурный подход, распространенный в индустрии, позволяет существенно расширить объем параметров модели (условно говоря, ее «знания»), не приводя к увеличению вычислительных ресурсов, необходимых для обработки каждого запроса.

Читайте также:  ИИ написал эссе, в котором высказал мнение о жестокости людей и необходимости прав для роботов

В отличие от обычных нейросетевых моделей, которые при обработке каждого слова задействуют все свои нейроны («плотные» модели), MoE-модели активируют лишь небольшую часть своих ресурсов («разреженные» модели). Отдельные подсети в модели, называемые «экспертами», обучаются для обработки конкретных типов данных. Так, один «эксперт» может специализироваться на программировании, другой — на биологии, а третий — на создании деловых писем.

По мнению Серажим, архитектура MoE позволяет использовать лишь определенную часть модели для создания каждого последующего токена, что обеспечивает ускорение работы и повышение эффективности.

«В Поиске нейронная сеть должна эффективно обрабатывать значительные объемы информации, при этом соответствовать строгим требованиям к скорости и стоимости каждого запроса. Мы внесли изменения в архитектуру, добавив слои Mixture of Experts (MoE). Полученные улучшения, в том числе разработка гибридной архитектуры, позволили повысить качество ответов и одновременно уменьшить стоимость их генерации в три раза. За год увеличилась доля запросов, на которые Поиск сразу предоставляет генеративный ответ, – это показатель вырос в полтора раза», – заключила она. В данном контексте инференс – это процесс обработки нейронной сетью, формирующей генеративный ответ на вопрос пользователя в поисковой системе.

Читайте также:  Производство сверхдолговечных аккумуляторов для электромобилей Tesla запущено

Использование компанией архитектуры MoE в сочетании с конструкцией «энкодер-декодер», изначально разработанной в научных исследованиях, для промышленного поиска демонстрирует, как научные разработки находят свое применение на практике, адаптируясь к строгим требованиям, предъявляемым к скорости, стабильности и стоимости инфраструктуры.