Отдел новостей 28 февраля 2025, 15:42

Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов

Обучение последней флагманской модели Claude 3.7 Sonnet обошлось Anthropic всего в «несколько десятков миллионов долларов» и потребовало 10^14 терафлопс вычислительной мощности. Об этом написал в Х ИИ-исследователь и профессор Пенсильванского университета Итан Моллик. Данными с ним поделились в компании. Однако там добавили, что «будущие модели будут намного крупнее».

Оставить комментарий

Обучение последней флагманской модели Claude 3.7 Sonnet обошлось Anthropic всего в «несколько десятков миллионов долларов» и потребовало 10^14 терафлопс вычислительной мощности. Об этом написал в Х ИИ-исследователь и профессор Пенсильванского университета Итан Моллик. Данными с ним поделились в компании. Однако там добавили, что «будущие модели будут намного крупнее».

After publishing the post, I was contacted by Anthropic who told me that Sonnet 3.7 would not be considered a 10^26 FLOP model and cost a few tens of millions of dollars, though future models will be much bigger.

I updated the post to reflect this, though it doesn’t change much. https://t.co/U4SKxqLNWx
— Ethan Mollick (@emollick) February 25, 2025

Если на тренировку модели, пусть и без учёта сопутствующих расходов, действительно было затрачено столько, сколько указал Моллик, это значит, что выпускать передовые модели становится всё дешевле, отмечает TechCrunch. По словам CEO Anthropic Дарио Амодея, обучение Claude 3.5, которая вышла в свет в прошлом сентябре, тоже стоило несколько десятков миллионов.

Эти цифры сравнимы с «ценами» топовых моделей 2023 года. Для сравнения, CEO OpenAI Сэм Альтман говорил, что на GPT-4 было потрачено более $100 млн, а Google, по оценкам Стэнфорда, потратила около $200 млн на обучение Gemini Ultra.

При этом Амодей считает, что в будущем ИИ-модели будут стоить миллиарды долларов. TechCrunch подчёркивает, что в затраты на обучение не включена стоимость вспомогательной работы, например тестирования безопасности и фундаментальных исследований. Кроме того, сейчас отрасль фокусируется на рассуждающих моделях, которые требуют больше времени на обработку сложных запросов, и затраты на производимые ими вычисления, скорее всего, продолжат расти.

При этом пользователи уже называют Claude 3.7 Sonnet лучше моделью для задач по программированию. На бенчмарках она превосходит модели OpenAI и DeepSeek.