DeepSeek выпустила ИИ с открытым кодом, генерирующий изображения лучше, чем DALL-E-3

Компания DeepSeek из Китая продемонстрировала свой новый искусственный интеллект Janus-Pro, специализирующийся на генерации изображений. По заявлениям разработчиков, его возможности превосходят лучшие аналоги, например, DALL-E-3 от OpenAI. Модель с открытым исходным кодом отличается высокой производительностью, достигнутой при относительно небольших затратах на разработку по сравнению с крупными американскими моделями, а также демонстрирует меньшее энергопотребление. Благодаря двум годам работы, компания может бросить вызов доминированию в сфере ИИ.

Компания DeepSeek, созданная в 2023 году исследовательским подразделением китайского хедж-фонда, сосредоточена на разработке больших языковых моделей для достижения ИИ общего назначения (AGI). На прошлой неделе стартап объявил о выпуске своей высокопроизводительной модели R1 и чат-бота. По оценкам пользователей, возможности модели по рассуждению и производительность близки к o1, последней публичной модели OpenAI.

Сэм Альтман, генеральный директор OpenAI, также отметил высокую производительность DeepSeek-R1. « DeepSeek R1 представляет собой весьма достойная модель, особенно учитывая ее стоимость », — написал он на сайте X. «Мы планируем представить значительно улучшенные модели, и выход нового конкурента вызывает большой энтузиазм! В ближайшее время будут представлены несколько новых разработок… Я с нетерпением жду возможности рассказать вам об AGI и других инновациях ».

Чат-бот DeepSeek с открытым исходным кодом, распространяемый по лицензии MIT, которая предоставляет широкие возможности для использования и модификации, и включающий, в частности, функции R1 и веб-поиск, быстро занял первое место среди бесплатных приложений в App Store, обогнав ChatGPT. Вскоре после этого компания сообщила об ограничении регистрации из-за масштабной кибератаки, однако пользователи, уже прошедшие регистрацию, сохранили возможность подключения.

Падение стоимости акций американских технологических компаний оказалось резким, поскольку инвесторы выразили опасения по поводу того, что доступные модели DeepSeek с открытым исходным кодом способны подорвать их монопольное положение. В частности, Nvidia, лидер рынка по производству процессоров для искусственного интеллекта, за один день потеряла 589 миллиардов долларов рыночной стоимости. Это стало самой значительной однодневной потерей стоимости среди компаний США, хотя общая оценка Nvidia по-прежнему исчисляется триллионами долларов).

Спустя всего несколько дней после выпуска R1, DeepSeek представила Janus-Po, свою новую модель для создания изображений, которая, по заявлению разработчиков, превосходит DALL-E 3 от OpenAI. Подобно R1, Janus-Pro распространяется бесплатно и имеет лицензию MIT. Она доступна на таких платформах для разработчиков, как GitHub и Hugging Face.

«Благодаря широкому функционалу, открытости исходного кода и высокой производительности, он играет значительную роль в развитии технологий искусственного интеллекта », — сообщает компания на своем веб-сайте Hugging Face.

Впечатляющая производительность по низкой цене

DeepSeek активно интегрируются в экосистему искусственного интеллекта, несмотря на ограничения, введенные США относительно импорта чипов для искусственного интеллекта в Китай. Чтобы преодолеть эти ограничения, разработчики компании создали алгоритмы, превосходящие конкурентов по производительности и обладающие более высокой энергоэффективностью. Это означает, что для их работы требуется меньше вычислительных ресурсов.

Генератор изображений предлагает различные варианты, отличающиеся количеством параметров — от 1 до 7 миллиардов. Это определяет его способность к решению задач, и, как правило, модели с большим количеством параметров демонстрируют более высокие результаты. Как и другие генеративные модели изображений, он создает изображения по текстовым запросам пользователей.

Линейка Janus-Pro претерпела улучшения благодаря новым методам обучения и более качественным данным. DeepSeek использовала 72 миллиона высококачественных изображений для обучения модели, что позволило сбалансировать их с реальными данными. В результате были получены изображения, отличающиеся большей реалистичностью и визуальным совершенством по сравнению с аналогичными моделями.

Несмотря на отсутствие доступа к обучающим данным, пользователи имеют возможность консультироваться и вносить изменения в алгоритмы. « В ходе тестирования эта модель демонстрирует возможности генерации изображений и превосходит DALL-E 3 от OpenAI и Stable Diffusion от Stability AI по ряду показателей производительности », — отмечает технологический предприниматель Брайан Роэммел в статье, опубликованной в The Independent.

DeepSeek представляет собой значительный прогресс в плане конкуренции: стоимость разработки его моделей составила менее 6 миллионов долларов. Такие утверждения ставят под вопрос необходимость огромных финансовых вливаний в этой области и могут еще больше оттолкнуть инвесторов.