Anthropic представила «лучшую в мире модель для программирования»
Компания анонсировала семейство моделей Claude 4 — Claude Opus 4 и Claude Sonnet 4 — на своей первой конференции для разработчиков. Эти модели с гибридным подходом к рассуждению оптимизированы для программирования и решения сложных задач.
Claude Opus 4, флагманская модель, выделяется способностью выполнять длительные многоэтапные рабочие процессы и работать автономно до семи часов. По словам разработчика, она превосходит модели Google Gemini 2.5 Pro, OpenAI o3 и GPT-4.1 в тестах, ориентированных на программирование, таких как SWE-bench Verified, что позволяет Anthropic назвать ее «лучшей моделью для программирования в мире». Claude Sonnet 4, более эффективная замена Claude 3.7, улучшает навыки программирования, математики и точного выполнения инструкций, подходя для общих задач.
Обе модели на 65% реже прибегают к «взлому вознаграждения» — использованию лазеек для выполнения задач — по сравнению с Claude 3.7 и могут сохранять факты в своей памяти для надежной обработки долгосрочных задач. Новая функция «сводки мышления» упрощает процесс рассуждения моделей в понятные пользователю выводы, а бета-режим «расширенного мышления» позволяет переключаться между рассуждением и использованием инструментов (например, веб-поиска) для повышения точности.
Claude Sonnet 4 доступна как бесплатным, так и платным пользователям через чат-боты Anthropic, тогда как Opus 4 предназначена только для платных подписчиков. Через API Anthropic на платформах Amazon Bedrock и Google Cloud Vertex AI стоимость Opus 4 составляет $15/$75 за 1 миллион токенов (ввод/вывод), а Sonnet 4 — $3/$15 за 1 миллион токенов. Миллион токенов эквивалентен примерно 750 000 слов.
Вместе с моделями Anthropic анонсировала обновления для Claude Code, своего агентского инструмента командной строки, который теперь общедоступен после ограниченного тестирования. С новыми расширениями для VS Code, JetBrains и GitHub, а также SDK для интеграции с третьими сторонами, Claude Code позволяет разработчикам использовать возможности Claude для задач, таких как исправление ошибок или ответ на отзывы по коду прямо из сред разработки.
Читать на dev.by