Китайский ИИ DeepSeek обучили за $294 000. Это в сотни раз дешевле, чем у OpenAI
Китайский разработчик искусственного интеллекта DeepSeek сообщил, что обучение его модели R1 обошлось всего в $294 000 — сумма значительно ниже затрат, о которых ранее говорили американские конкуренты.
Китайский разработчик искусственного интеллекта DeepSeek сообщил, что обучение его модели R1 обошлось всего в $294 000 — сумма значительно ниже затрат, о которых ранее говорили американские конкуренты.
Об этом компания заявила в статье, опубликованной в журнале Nature. Это первый раз, когда DeepSeek раскрыла конкретные расходы на обучение R1. В статье указывается, что модель, ориентированная на рассуждения, была обучена в течение 80 часов на кластере из 512 чипов Nvidia H800. Для подготовительных этапов DeepSeek также использовала GPU A100, о чем впервые официально упомянула в документации к исследованию.
Для сравнения, глава OpenAI Сэм Альтман заявлял еще в 2023 году, что обучение фундаментальных моделей обходилось «намного дороже $100 миллионов», однако точные цифры компания не раскрывала. Объявление DeepSeek уже вызвало новую волну дискуссий о месте Китая в глобальной гонке ИИ. Ранее в январе сообщения о низкозатратных моделях DeepSeek спровоцировали падение акций западных технологических компаний.
Американские официальные лица и эксперты выражали сомнения в достоверности заявлений DeepSeek о применяемых технологиях. В США утверждали, что у компании есть доступ к большому количеству чипов Nvidia H100, поставки которых в Китай запрещены с октября 2022 года. DeepSeek же заявляет, что использует исключительно законно приобретенные H800.
Кроме того, компания впервые косвенно ответила на обвинения в «дистилляции» — использовании уже существующих ИИ-моделей для обучения собственных систем. DeepSeek признала, что в ее данных присутствовали материалы, созданные другими моделями, в том числе OpenAI, но подчеркнула, что это было «непреднамеренным».
Техника дистилляции позволяет обучить новый алгоритм на базе ответов другой модели, что снижает затраты на разработку и делает ИИ-доступ более массовым. Ранее DeepSeek подтверждала, что использовала открытую модель Llama от Meta в некоторых версиях своих систем.
Бесполезное считать, столько стоило одного удачное обучение. Нужно еще считать неудачные прогоны, затраты на исследования, сбор данных, зарплаты программистов и ученых, железо. Тогда, возможно, 100 миллионов и получится. Раньше DeepSeek говорили, то потратили 5 миллионов, но не уточняли, на что именно. R1 - это надстройка над уже существующей моделью V3, стоимость разработки которой на раскрывалась. Вдобавок, у компании уже был свой дата центр с кучей Nvidea чипов. В общем, все мутно. Очевидно только, что американские и китайские ИИ компании жестко конкурируют и пытаются насолить друг другу.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Бесполезное считать, столько стоило одного удачное обучение. Нужно еще считать неудачные прогоны, затраты на исследования, сбор данных, зарплаты программистов и ученых, железо. Тогда, возможно, 100 миллионов и получится. Раньше DeepSeek говорили, то потратили 5 миллионов, но не уточняли, на что именно. R1 - это надстройка над уже существующей моделью V3, стоимость разработки которой на раскрывалась. Вдобавок, у компании уже был свой дата центр с кучей Nvidea чипов. В общем, все мутно. Очевидно только, что американские и китайские ИИ компании жестко конкурируют и пытаются насолить друг другу.