OpenAI выпускает GPT-5.4 с версиями Pro и Thinking

AppTractor

4 месяца назад

В четверг OpenAI выпустила GPT-5.4, новую базовую модель, позиционируемую как «наша самая мощная и эффективная модель для профессиональной работы». Помимо стандартной версии, GPT-5.4 также доступна в виде модели для рассуждений (GPT-5.4 Thinking) или оптимизированной для высокой производительности (GPT-5.4 Pro).

Версия модели с API будет доступна с контекстными окнами размером до 1 миллиона токенов, что является самым большим контекстным окном, доступным от OpenAI.

OpenAI также подчеркнула улучшенную эффективность использования токенов, заявив, что GPT-5.4 смогла решить те же задачи со значительно меньшим количеством токенов, чем её предшественница.

Новая модель демонстрирует значительно улучшенные результаты в бенчмарках, включая рекордные показатели в тестах OSWorld-Verified и WebArena Verified. Новая модель также показала рекордные 83% в тесте OpenAI GDPval для задач интеллектуального труда.

Согласно заявлению генерального директора Mercor Брендана Фуди, GPT-5.4 также заняла лидирующую позицию в бенчмарке APEX-Agents компании Mercor, предназначенном для проверки профессиональных навыков в области права и финансов.

«GPT-5.4 превосходно справляется с созданием долгосрочных результатов, таких как презентации, финансовые модели и юридический анализ, — сказал Фуди в заявлении, — обеспечивая высочайшую производительность при более высокой скорости и меньших затратах, чем конкурирующие модели».

GPT-5.4 продолжает усилия компании по ограничению ошибок и фактических неточностей. OpenAI заявила, что новая модель на 33% реже допускает ошибки в отдельных исках по сравнению с GPT 5.2, а общая вероятность ошибок в ответах снижается на 18%.

В рамках запуска OpenAI переработала способ управления вызовом инструментов в API-версии GPT-5.4, представив новую систему под названием «Поиск инструментов». Ранее система предлагала определения всех доступных инструментов при вызове модели — процесс, который мог потреблять много токенов по мере роста числа доступных инструментов. Новая система позволяет моделям искать определения инструментов по мере необходимости, что приводит к более быстрым и дешевым запросам в системах с большим количеством доступных инструментов.

OpenAI также включила новую оценку безопасности для проверки логики работы моделей — комментарии, предоставляемые моделями для демонстрации мыслительного процесса на протяжении многоэтапных задач. Исследователи в области безопасности ИИ давно опасаются, что модели рассуждений могут искажать цепочку своих мыслей, и тестирование показывает, что это может произойти при определенных обстоятельствах.

Новая оценка OpenAI показывает, что обман менее вероятен в версии GPT-5.4, ориентированной на мышление, «что говорит о том, что модель не способна скрывать свои рассуждения и что мониторинг цепочки мыслей остается эффективным инструментом обеспечения безопасности».