Connect with us

Новости

Anthropic выпустил агентскую модель Claude Sonnet 5

Sonnet 5 обещает производительность, близкую к Opus 4.8, но по гораздо более низкой цене.

Опубликовано

/

     
     

Поскольку внедрение агентных возможностей становится обязательным условием для компаний, разрабатывающих базовые модели, Anthropic выпускает Claude Sonnet 5 — более мощную и агентную версию модели среднего размера.

«Она может планировать, использовать такие инструменты, как браузеры и терминалы, и работать автономно на уровне, который еще несколько месяцев назад требовал более крупных и дорогих моделей», — говорится в сообщении Anthropic в блоге.

Эта позиция перекликается с тем, что говорили OpenAI и Google о своих недавних релизах. OpenAI GPT-5.6 Sol был запущен в предварительной версии на прошлой неделе, и это также самая агентная модель компании на сегодняшний день, позволяющая пользователям распределять работу между субагентами для выполнения более длительных автономных задач. Google Gemini 3.5 Flash, запущенный в мае, позиционировался как переход от разговорного чат-бота к агентному инструменту, который планирует, создает и итеративно выполняет реальную работу с минимальным участием человека.

Позиция Sonnet 5 подтверждает, что агентные возможности — это новое базовое ожидание на каждом ценовом уровне. Теперь решающим фактором будет не то, кто лучше всего справляется с агентской работой, а то, насколько дешево и надежно это можно делать без участия человека.

Sonnet 5 обещает производительность, близкую к Opus 4.8, но по гораздо более низкой цене. Начиная со вторника, Claude Sonnet 5 станет моделью по умолчанию для бесплатных и Pro-планов и будет доступен для всех подписчиков.

Anthropic выпустил агентскую модель Claude Sonnet 5

На момент запуска цена Sonnet 5 составляет 2 доллара за миллион входных токенов и 10 долларов за миллион выходных токенов до 31 августа, после чего цена вырастет до 3 долларов за миллион входных токенов и 15 долларов за миллион выходных токенов. Это делает Sonnet 5 дешевле, чем Opus 4.8, а также OpenAI GPT-5.5 и Google Gemini 3.1 Pro (модель по-прежнему дороже, чем Gemini 3.5 Flash).

По данным Anthropic, новая модель также демонстрирует значительные улучшения по сравнению со своим предшественником Sonnet 4.6, выпущенным в феврале, в таких аспектах производительности агентов, как рассуждения, использование инструментов, программирование и интеллектуальная работа.

Например, в одном из тестов Sonnet 5 набирает 63,2% в интеллектуальном программировании, по сравнению с 69,2% у Opus 4.8 и 58,1% у Sonnet 4.6. В тесте на интеллектуальную работу Sonnet 5 даже немного превосходит Opus 4.8, который известен тем, что побеждает в решении самых сложных задач, таких как принятие сложных решений и глубокое исследование.

«Opus 4.8 по-прежнему является предпочтительной моделью для более высокой точности в этих задачах, но Sonnet 5 предоставляет разработчикам более дешевые варианты, которые намного качественнее, чем то, что было доступно ранее», — заявляет Anthropic. «Между Sonnet 5 и Opus 4.8 пользователи могут регулировать уровень сложности, чтобы найти оптимальный баланс между стоимостью и производительностью».

По словам тестировщиков, упомянутых в блоге, Sonnet 5 также превосходно справляется со сложными задачами, на которых предыдущие версии модели останавливались, и «проверяет свои результаты без явного запроса».

«Мы поручили Claude Sonnet 5 задачу из двух частей — обновить уровни учетных записей Salesforce, отправить объявление о запуске корпоративным контактам — и она выполнилась от начала до конца», — заявил в своем сообщении Дэниел Шепард, старший инженер Zapier. «Раньше это застревало на полпути. Для повседневной автоматизации это очевидный выбор».

Что касается безопасности, Sonnet 5 также демонстрирует более низкий уровень «нежелательного поведения», такого как сотрудничество со злоупотреблениями и обманом, чем его предшественник, что делает его более безопасным для использования в агентских контекстах. Он лучше отклоняет вредоносные запросы и обходит попытки перехвата при атаках с внедрением промптов. Кроме того, она реже, чем Sonnet 4.6, склонна к галлюцинациям и подобострастному поведению.

Тем не менее, по уровню несогласованности поведения она уступает Opus 4.8 и Claude Mythos Preview. «Оценки также показывают, что она обладает гораздо меньшей способностью выполнять опасные задачи в области кибербезопасности, чем наши текущие модели Opus», — говорится в сообщении блога.

Соучредитель Lovable Фабиан Хедин заявил, что Claude Sonnet 5 «чисто и последовательно отклоняет небезопасные запросы».

«В Lovable мы предоставляем мощные инструменты миллионам разработчиков», — сказал Хедин. «Модель, которая знает, когда сказать «нет», так же важна, как и та, которая знает, как делать».

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.
Telegram

Популярное

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: