Иллюстрация с изображением Claude, размышляющего шаг за шагом
Сегодня мы представляем Claude 3.7 Sonnet — нашу самую интеллектуальную модель на данный момент и первую гибридную модель для рассуждений на рынке. Claude 3.7 Sonnet способен выдавать почти мгновенные ответы или выполнять длительные, пошаговые размышления, которые видны пользователю. Пользователи API также получают детальный контроль над тем, как долго модель может размышлять.
Claude 3.7 Sonnet демонстрирует особенно значительные улучшения в области программирования и фронтенд-разработки веб-приложений. Вместе с моделью мы также представляем инструмент командной строки для агентного программирования — Claude Code. Claude Code доступен в рамках ограниченного исследовательского превью и позволяет разработчикам делегировать значительные инженерные задачи Claude прямо из терминала.
Экран с процессом подключения к Claude Code
Claude 3.7 Sonnet теперь доступен во всех планах Claude — включая Free, Pro, Team и Enterprise — а также через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. Режим расширенных размышлений доступен на всех платформах, кроме бесплатного уровня Claude.
В стандартном и расширенном режимах размышлений стоимость Claude 3.7 Sonnet остается прежней, как у предшественников: $3 за миллион входных токенов и $15 за миллион выходных токенов, включая токены размышлений.
Claude 3.7 Sonnet: Практичные передовые рассуждения
Мы разработали Claude 3.7 Sonnet с иной философией, чем другие модели рассуждений на рынке. Как человек использует один мозг для быстрых ответов и глубоких размышлений, мы считаем, что способность к рассуждению должна быть встроенной функцией передовых моделей, а не отдельной моделью. Такой единый подход обеспечивает более плавный опыт для пользователей.

Claude 3.7 Sonnet воплощает эту философию несколькими способами. Во-первых, это одновременно обычная языковая модель и модель для рассуждений: вы можете выбирать, когда модель должна отвечать стандартно, а когда размышлять дольше перед ответом. В стандартном режиме Claude 3.7 Sonnet — это улучшенная версия Claude 3.5 Sonnet. В режиме расширенных размышлений она саморефлексирует перед ответом, что повышает её производительность в математике, физике, следовании инструкциям, программировании и многих других задачах. Мы заметили, что промпты для модели работают схожим образом в обоих режимах.
Во-вторых, при использовании через API пользователи могут контролировать бюджет размышлений: вы можете указать Claude размышлять не более чем на N токенов, до лимита в 128 тысяч токенов на выходе. Это позволяет балансировать между скоростью (и стоимостью) и качеством ответа.
В-третьих, при разработке наших моделей рассуждений мы меньше оптимизировали их для соревнований по математике и компьютерным наукам, а больше сосредоточились на реальных задачах, которые лучше отражают использование языковых моделей в бизнесе.
Ранние тесты показали лидерство Claude в программировании: Cursor отметил, что Claude снова стал лучшим в классе для реальных задач программирования, с улучшениями в обработке сложных кодовых баз и продвинутого использования инструментов. Cognition обнаружил, что он значительно превосходит другие модели в планировании изменений кода и обработке обновлений полного стека. Vercel подчеркнул исключительную точность Claude для сложных агентных рабочих процессов, а Replit успешно использовал Claude для создания сложных веб-приложений и дашбордов с нуля там, где другие модели стопорились. В тестах Canva Claude стабильно выдавал готовый к продакшену код с превосходным вкусом к дизайну и значительно меньшим количеством ошибок.

Гистограмма, показывающая лидерство Claude 3.7 Sonnet в SWE-bench Verified
Claude 3.7 Sonnet демонстрирует передовые результаты на SWE-bench Verified, оценивающем способность ИИ решать реальные проблемы ПО. Подробности о scaffolding — в приложении.
Гистограмма, показывающая лидерство Claude 3.7 Sonnet в TAU-bench
Claude 3.7 Sonnet лидирует в TAU-bench — тесте ИИ-агентов на сложных реальных задачах с взаимодействием с пользователями и инструментами. Подробности о scaffolding — в приложении.
Таблица сравнения передовых моделей рассуждений
Claude 3.7 Sonnet выделяется в следовании инструкциям, общем рассуждении, мультимодальных возможностях и агентном программировании, а режим расширенных размышлений заметно улучшает результаты в математике и науке. Помимо традиционных бенчмарков, он даже превзошёл все предыдущие модели в наших тестах по игре в Pokémon.
С июня 2024 года Sonnet стал предпочтительной моделью для разработчиков по всему миру. Сегодня мы расширяем возможности разработчиков, представляя Claude Code — наш первый инструмент для агентного программирования — в рамках ограниченного исследовательского превью.
Claude Code — активный помощник, который может искать и читать код, редактировать файлы, писать и запускать тесты, коммитить и пушить код на GitHub, а также использовать инструменты командной строки, держа вас в курсе каждого шага.
Claude Code — это ранний продукт, но уже стал незаменимым для нашей команды, особенно в разработке на основе тестов, отладке сложных проблем и крупномасштабном рефакторинге. В ранних тестах он выполнял задачи за один проход, которые обычно занимали более 45 минут ручной работы, сокращая время и затраты на разработку.
В ближайшие недели мы планируем улучшать его на основе нашего опыта: повысить надёжность вызовов инструментов, добавить поддержку длительных команд, улучшить рендеринг в приложении и расширить понимание Claude своих возможностей.
Наша цель с Claude Code — лучше понять, как разработчики используют Claude для программирования, чтобы улучшить будущие модели. Присоединяйтесь к превью, и вы получите доступ к тем же мощным инструментам, которые мы используем для создания и улучшения Claude, а ваш фидбек напрямую повлияет на его будущее.
Работа с Claude над вашим кодом
Мы также улучшили опыт программирования на Claude.ai. Интеграция с GitHub теперь доступна во всех планах Claude, позволяя разработчикам подключать свои репозитории кода напрямую к Claude.
Claude 3.7 Sonnet — наша лучшая модель для программирования на сегодня. С более глубоким пониманием ваших личных, рабочих и открытых проектов она становится мощным партнёром для исправления багов, разработки функций и создания документации для ваших ключевых проектов на GitHub.
Ответственная разработка
Мы провели обширное тестирование и оценку Claude 3.7 Sonnet, сотрудничая с внешними экспертами, чтобы убедиться, что он соответствует нашим стандартам безопасности, надёжности и защиты. Claude 3.7 Sonnet также лучше различает вредоносные и безобидные запросы, сократив избыточные отказы на 45% по сравнению с предшественником.
Системная карта релиза включает новые результаты по безопасности в нескольких категориях, предоставляя подробный разбор оценок нашей политики ответственного масштабирования, которые могут использовать другие ИИ-лаборатории и исследователи. Карта также затрагивает новые риски, связанные с использованием компьютеров, особенно атаки через инъекцию промптов, и объясняет, как мы оцениваем эти уязвимости и обучаем Claude противостоять им. Кроме того, она рассматривает потенциальные преимущества моделей рассуждений для безопасности: способность понимать, как модели принимают решения, и действительно ли их рассуждения надёжны. Подробности — в полной системной карте.
Взгляд в будущее
Claude 3.7 Sonnet и Claude Code — важный шаг к ИИ-системам, которые действительно смогут расширить человеческие возможности. Благодаря способности глубоко рассуждать, работать автономно и эффективно сотрудничать они приближают нас к будущему, где ИИ обогащает и расширяет то, что могут достичь люди.
Хронология этапов, показывающая прогресс Claude от помощника до пионера
Мы рады, что вы сможете исследовать эти новые возможности и увидеть, что вы с ними создадите. Как всегда, мы ждём ваших отзывов, чтобы продолжать улучшать и развивать наши модели.