Китайский ИИ DeepSeek обучили за $294 000. Это в сотни раз дешевле, чем у OpenAI
Китайский разработчик искусственного интеллекта DeepSeek сообщил, что обучение его модели R1 обошлось всего в $294 000 — сумма значительно ниже затрат, о которых ранее говорили американские конкуренты.
Китайский разработчик искусственного интеллекта DeepSeek сообщил, что обучение его модели R1 обошлось всего в $294 000 — сумма значительно ниже затрат, о которых ранее говорили американские конкуренты.
Об этом компания заявила в статье, опубликованной в журнале Nature. Это первый раз, когда DeepSeek раскрыла конкретные расходы на обучение R1. В статье указывается, что модель, ориентированная на рассуждения, была обучена в течение 80 часов на кластере из 512 чипов Nvidia H800. Для подготовительных этапов DeepSeek также использовала GPU A100, о чем впервые официально упомянула в документации к исследованию.
Для сравнения, глава OpenAI Сэм Альтман заявлял еще в 2023 году, что обучение фундаментальных моделей обходилось «намного дороже $100 миллионов», однако точные цифры компания не раскрывала. Объявление DeepSeek уже вызвало новую волну дискуссий о месте Китая в глобальной гонке ИИ. Ранее в январе сообщения о низкозатратных моделях DeepSeek спровоцировали падение акций западных технологических компаний.
Американские официальные лица и эксперты выражали сомнения в достоверности заявлений DeepSeek о применяемых технологиях. В США утверждали, что у компании есть доступ к большому количеству чипов Nvidia H100, поставки которых в Китай запрещены с октября 2022 года. DeepSeek же заявляет, что использует исключительно законно приобретенные H800.
Кроме того, компания впервые косвенно ответила на обвинения в «дистилляции» — использовании уже существующих ИИ-моделей для обучения собственных систем. DeepSeek признала, что в ее данных присутствовали материалы, созданные другими моделями, в том числе OpenAI, но подчеркнула, что это было «непреднамеренным».
Техника дистилляции позволяет обучить новый алгоритм на базе ответов другой модели, что снижает затраты на разработку и делает ИИ-доступ более массовым. Ранее DeepSeek подтверждала, что использовала открытую модель Llama от Meta в некоторых версиях своих систем.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.