ruDALL-E — крупнейший российский и советский проект по обучению нейросети, ставший настоящим прорывом для русскоговорящей индустрии.

Банк «Сбер» выпустил первую нейросеть, способную создавать любое количество изображений по тексту на русском языке. сайте и в пресс-релизеRuDALL-E может быть полезен копирайтерам, дизайнерам интерьеров, создателям стоковых изображений, векторных иллюстраций и рекламных материалов.
«Помимо вклада в прогресс в области ИИ, генерация изображений закрывает две важные потребности современного бизнеса: возможность получить уникальную картинку под собственное описание и создание необходимого количества лицензионно-бесплатных иллюстраций. При этом создание «мультимодальных» нейронных сетей, которые обучаются сразу на нескольких видах данных, будет востребованным, поскольку решает задачи на принципиально ином уровне. Технология совсем новая: первые шаги в этом направлении были сделаны только в 2020 году, а еще в 2018-2019 годах постановку такого рода задачи было невозможно представить. ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии», — отметил Давид Рафаловский, исполнительный вице-президент Сбербанка и руководитель блока «Технологии».
Существует две модели. Первая — ruDALL-E Malevich (XL) насчитывает 1,3 миллиарда параметров и по краткому текстовому описанию генерирует яркие и красочные изображения на различные темы и сюжеты. Модель понимает большой набор понятий и создаёт совершенно новые изображения и объекты, которых не было в реальном мире. Бесплатно воспользоваться ею можно, загрузив с сервиса Github.
Второй вариант, ruDALL-E Kandinsky (XXL), обладает той же архитектурой, что и ruDALL-E Malevich, но насчитывает 12 миллиардов параметров. В ближайшее время обе модели станут доступны на платформе ML Space в хабе DataHub от… SberCloudРазработчик облачной платформы «Сбера», компания ООО «Облачные технологии», в 2019 году представила самый мощный в России суперкомпьютер Christofari.

ruDALL-E создает изображения по текстовому описанию (при обучении также используются изображения) в три этапа. Первая нейросеть получает текст и генерирует необходимое количество картинок. Вторая нейросеть определяет, какие из них самые удачные и соответствуют характеристикам, заданным пользователем. Третья нейросеть увеличивает размер выбранных изображений. При этом качество не ухудшается.
В этом году подразделение «Сбера» по разработке ИИ представило архитектуру модели DALL-E для английского языка, но полный доступ к коду не был предоставлен. СберDevices, Sber AI и коллеги из SberCloud воспроизвели код и обучили нейросеть на базе суперкомпьютера Christofari в ML Space. 23 тысячи… GPU-часовГрафический процессор и массив данных из 120 миллионов пар текстово-изобразительная информация.