OpenAI выпустила новую версию GPT-5.4, показавшую впечатляющие результаты в профессиональных тестах

Компания OpenAI выпустила GPT-5.4 — новую базовую модель, разработанную для решения профессиональных и технических задач. Согласно опубликованной информации, эта разработка объединяет усовершенствованные возможности логического мышления, написания программного кода и автоматизации рабочих процессов в комплексное решение, созданное для практического применения. В рамках анонса представлены различные версии модели: стандартная, используемая в API и инструментах для разработчиков, GPT-5.4 Thinking, доступная в ChatGPT в качестве варианта, предназначенного для сложных рассуждений, и GPT-5.4 Pro, предназначенная для пользователей, которым необходима максимальная производительность при работе с ресурсоемкими задачами.

Компания представляет GPT-5.4 как свою наиболее мощную и результативную флагманскую модель на текущий момент, подчеркивая её достижения в обработке документов, работе с электронными таблицами, программировании и решении комплексных задач. Подтверждением эффективности новой модели стали результаты независимой проверки. GPT-5.4 показала выдающиеся результаты в проверенных тестах OSWorld-Verified и WebArena Verified, оценивающих возможности ИИ во взаимодействии с приложениями и онлайн-сервисами. Помимо этого, в тесте OpenAI GDPval, определяющем умение ИИ справляться с задачами, такими как создание текстов, исследования и анализ, модель получила 83%. Она также заняла первое место в контрольном тесте APEX-Agents, разработанном компанией Mercor для оценки производительности ИИ в профессиональных сферах, включая юриспруденцию и финансовую деятельность.

Генеральный директор Mercor Брендан Фуди подчеркнул, что новая модель демонстрирует лучшие показатели по сравнению с конкурентами в части достижения устойчивых профессиональных результатов. Он заявил, что GPT-5.4 эффективно генерирует такие материалы, как слайд-презентации, финансовые модели и юридические аналитические записки, при этом обеспечивая более высокую скорость работы и меньшие затраты в сравнении с другими современными моделями. Повышенная эффективность проявляется и в том, что GPT-5.4 решает подобные задачи, расходуя значительно меньше токенов, чем предыдущая версия GPT-5.2, что приводит к сокращению вычислительных издержек и времени отклика. API-версия модели поддерживает контекстное окно объемом до одного миллиона токенов, позволяя обрабатывать очень большие документы, сохраняя при этом целостность контекста.

Помимо повышения эффективности, OpenAI анонсировала ряд новых возможностей для разработчиков, работающих над ИИ-агентами и автоматизированными процессами. Важным нововведением стала система Tool Search, благодаря которой модель может находить определения требуемых инструментов по мере возникновения потребности, вместо того чтобы загружать их все в системный запрос. Это позволяет существенно уменьшить расход токенов и ускорить время ответа при использовании больших наборов инструментов. Также была улучшена возможность GPT-5.4 непосредственно управлять компьютером: в Codex и API появилась встроенная функция, обеспечивающая взаимодействие ИИ-агентов с приложениями и выполнение сложных операций между различными системами, при этом сохраняется контекст на протяжении всей работы.

В новом релизе акцент сделан на безопасности и понятности логики работы. В OpenAI представили обновленную оценку безопасности, которая посвящена анализу последовательности рассуждений. Проведенные тесты продемонстрировали, что вероятность ошибочной интерпретации внутренних процессов мышления в версии GPT-5.4 Thinking ниже, чем ожидалось. В компании утверждают, что склонность к обману в этой версии модели снижена, что указывает на ее неспособность скрывать ход своих мыслей и подтверждает результативность контроля цепочек рассуждений как меры безопасности. Кроме того, зафиксировано значительное улучшение точности: по сравнению с GPT-5.2, новая модель совершает ошибки в отдельных утверждениях на 33% реже, а общее число ответов, содержащих фактические неточности, уменьшилось на 18%. В версии для ChatGPT модель может сначала предлагать план своих рассуждений, что дает пользователю возможность корректировать логику ответа для получения оптимальных результатов без дополнительных запросов. По мнению разработчиков, совокупность этих улучшений делает GPT-5.4 более надежным инструментом для профессионального использования, одновременно сокращая затраты и повышая эффективность для разработчиков и организаций.

Scienty

OpenAI выпустила новую версию GPT-5.4, показавшую впечатляющие результаты в профессиональных тестах

Похожие посты:

Генное редактирование помогло ученым создать грибной белок, имитирующий мясо

Космический аппарат Europa Clipper совершил маневр у Марса в рамках своего путешествия к Юпитеру

Реальная мощность ИИ-инфраструктуры Китая может превзойти мировые показатели