Сбер разработал нейросеть ruDALL-E, генерирующую изображения по текстовому описанию на русском языке.

Обучение ruDALL-E представляет собой крупнейший нейросетевой вычислительный проект в России и странах СНГ, который можно охарактеризовать как значительный прогресс для русскоязычной индустрии».

«Сбер» продемонстрировал первую нейросеть, способную создавать неограниченное количество изображений по текстовому описанию на русском языке. Новинку назвали ruDALL-E, об этом говорится в информации, размещенной на посвященном ей сайте и в пресс-релизе. инструмент ruDALL-E может оказаться полезным копирайтерам, экспертам и обычным пользователям при поиске подходящих решений для дизайна интерьеров, для создания стоковых изображений, векторной графики и рекламных материалов.

«Создание изображений, помимо содействия развитию искусственного интеллекта, удовлетворяет две значимые потребности современного бизнеса: получение оригинального изображения по текстовому описанию и возможность в любое время генерировать неограниченное количество иллюстраций, не требующих лицензирования. Разработка «мультимодальных» нейронных сетей, которые проходят обучение сразу на нескольких типах данных, останется крайне востребованной, даже в текущую эпоху больших данных и широких возможностей поиска, поскольку позволяет решать задачи на качественно ином уровне. Данная технология является достаточно новой, первые попытки в этой области были предприняты лишь в 2020 году, а в 2018–2019 годах даже формулировка подобной задачи казалась невозможной. ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии», — подчеркнул Давид Рафаловский, исполнительный вице-президент Сбербанка и руководитель блока «Технологии».

Существуют две доступные модели. Первая из них, ruDALL-E Malevich (XL), включает 1,3 миллиарда параметров и позволяет создавать насыщенные и красочные изображения на самые разные темы и сюжеты, основываясь на коротком текстовом описании. Она способна понимать широкий спектр понятий и генерировать совершенно новые изображения и объекты, не имеющие аналогов в реальном мире. Данная версия нейросети доступна для бесплатного использования: для этого достаточно загрузить ее с платформы Github.

RuDALL-E Kandinsky (XXL) использует ту же архитектуру, что и ruDALL-E Malevich, однако обладает 12 миллиардами параметров. В скором времени обе модели будут доступны на платформе ML Space, в хабе DataHub от SberCloud — оОО «Облачные технологии», разработчик облачной платформы «Сбера», в 2019 году продемонстрировал самый производительный в России суперкомпьютер Christofari.

RuDALL-E генерирует изображения на основе текстового запроса (а также используя обучающие картинки) в три этапа. На первом этапе одна нейросеть получает текст и создает нужное количество изображений. Затем другая нейросеть выбирает наиболее подходящие и соответствующие указанным пользователем параметрам. И наконец, третья нейросеть увеличивает размер изображений. При этом качество картинки не ухудшается.

В начале текущего года Sber AI, подразделение «Сбера», отвечающее за развитие и внедрение технологий искусственного интеллекта, представило архитектуру модели, аналогичной DALL-E, для английского языка. Однако, она не была опубликована в открытом доступе. Используя эту разработку, SberDevices и Sber AI совместно с сотрудниками SberCloud воссоздали программный код и начали обучение нейронной сети на платформе ML Space, использующей суперкомпьютер Christofari. Для создания российской версии нейросети потребовалось 23 тысячи GPU-часов (Графический процессор (GPU) и массив данных, содержащий 120 миллионов пар текст — изображение.