Новости

Новые модели ИИ GPT-4.1 от OpenAI сосредоточены на программировании

Опубликовано

1 год назад

15.04.2025

Автор:

В понедельник OpenAI представила новое семейство моделей под названием GPT-4.1. Сейчас у компании есть GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, и все они, по словам OpenAI, «отлично» справляются с программированием и выполнением инструкций. Доступные через API OpenAI, но не через ChatGPT, мультимодальные модели имеют контекстное окно на 1 миллион токенов, что означает, что они могут воспринять примерно 750,000 слов за один раз (больше, чем «Война и мир»).

GPT-4.1 появился на фоне того, как конкуренты OpenAI, такие как Google и Anthropic, наращивают усилия по созданию сложных моделей программирования. Недавно выпущенный Gemini 2.5 Pro от Google, который также имеет контекстное окно на 1 миллион токенов, занял высокие позиции в популярных тестах на программирование. Также как и Claude 3.7 Sonnet от Anthropic и обновленный V3 от китайского ИИ-стартапа DeepSeek.

Целью многих технологических гигантов, в том числе и OpenAI, является обучение ИИ моделям програмирования, способным выполнять сложные задачи по разработке программного обеспечения. Большая задача OpenAI — создать «агентного инженера-программиста», как выразилась финансовый директор Сара Фрайар на технологическом саммите в Лондоне в прошлом месяце. Компания утверждает, что ее будущие модели смогут программировать целые приложения от начала и до конца, занимаясь такими аспектами, как обеспечение качества, тестирование ошибок и написание документации.

GPT-4.1 — шаг в этом направлении.

«Мы оптимизировали GPT-4.1 для реального использования на основе прямых отзывов, чтобы улучшить те области, которые больше всего волнуют разработчиков: фронтенд-код, внесение меньшего количества лишних правок, надежное следование форматам, соблюдение структуры и порядка ответов, последовательное использование инструментов и многое другое», — сообщил представитель OpenAI. «Эти улучшения позволяют разработчикам создавать агентов, которые значительно лучше справляются с реальными задачами по разработке программного обеспечения».

OpenAI утверждает, что полная модель GPT-4.1 превосходит свои модели GPT-4o и GPT-4o mini в бенчмарках кодирования, включая SWE-bench. Считается, что GPT-4.1 mini и nano более эффективны и быстры за счет снижения точности. OpenAI утверждает, что GPT-4.1 nano — это самая быстрая и дешевая модель.

GPT-4.1 стоит 2 доллара за миллион входных токенов и 8 долларов за миллион выходных токенов. GPT-4.1 mini стоит $0.40/миллион входных токенов и $1.60/миллион выходных токенов, а GPT-4.1 nano — $0.10/миллион входных токенов и $0.40/миллион выходных токенов.

Согласно внутреннему тестированию OpenAI, GPT-4.1, который может генерировать больше токенов за раз, чем GPT-4o (32,768 против 16,384), набрал от 52 до 54.6% в SWE-bench Verified, подмножестве SWE-bench, проверяемым человеком. Эти показатели немного ниже, чем у Google и Anthropic для Gemini 2.5 Pro (63.8%) и Claude 3.7 Sonnet (62.3%), соответственно, в том же бенчмарке.

В отдельной оценке OpenAI проверил GPT-4.1 с помощью Video-MME, который предназначен для измерения способности модели «понимать» контент в видео. GPT-4.1 достиг рекордной точности в 7 % в категории «длинное видео без субтитров», утверждает OpenAI.

Хотя GPT-4.1 демонстрирует достаточно высокие результаты в бенчмарках и имеет более свежий «срез знаний», что дает ему возможность лучше ориентироваться в текущих событиях (до июня 2024 года), важно помнить, что даже некоторые из лучших современных моделей с трудом справляются с задачами, которые не ставят в тупик экспертов. Например, многие исследования показали, что модели, генерирующие код, часто не справляются с устранением уязвимостей и ошибок в системе безопасности.

OpenAI также признает, что GPT-4.1 становится тем менее надежной (то есть склонной к ошибкам), чем больше входных токенов ей приходится обрабатывать. В одном из собственных тестов OpenAI-MRCR точность модели снизилась с 84% при 8,000 лексем до 50% при 1 млн лексем. GPT-4.1 также имеет тенденцию быть более «буквальной», чем GPT-4o, говорит компания, иногда требуя более конкретных, явных подсказок.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.