Китайский ИИ-стартап наделал шуму в Долине, обогнал ChatGPT в App Store, потянул вниз Nasdaq

Небольшой китайский ИИ-стартап DeepSeek разрабатывает большие языковые модели в условиях ограниченного бюджета и технических ресурсов. На прошлой неделе он выпустил модель R1, которая напугала представителей Кремниевой долины. Релиз заставил их задуматься, смогут ли более обеспеченные компании вроде Meta и Anthropic сохранить лидерство в сфере, пишет Financial Times.

15 комментариев

R1 — «рассуждающая» модель с открытым исходным кодом на 671 млрд параметров. На некоторых ИИ-бенчмарках она не уступает o1 от OpenAI. Есть версии «полегче» на 1,5 млрд и 70 млрд параметров. Самая «тяжёлая» доступна через API DeepSeek по цене на 90-95% меньше, чем o1. Будучи китайской моделью, R1 зацензурирована и не отвечает на некоторые запросы. Для обучения модели стартапу потребовалось всего 2048 графических процессоров H800 от Nvidia и $5,6 млн, что в разы меньше затрат OpenAI и Google.

DeepSeek основал китайский миллиардер и управляющий хедж-фонда High-Flyer Лян Вэньфэн, уже ставший предметом гордости в своей стране. В 2021 году он начал тысячами скупать графические процессоры Nvidia для стороннего проекта по обучению моделей. Даже партнёры считали его чудаком, который ищет новые развлечения, и не воспринимали всерьёз. В High-Flyer Лян неплохо заработал на алгоритмах для поиска закономерностей, которые могли влиять на котировки акций. В 2023-м он запустил DeepSeek, заявив, что хочет разработать ИИ, не уступающий человеку, и собрал мощную команду.

Когда США запретили Nvidia поставлять передовые чипы в Китай, местным ИИ-компаниям пришлось искать способы максимизировать вычислительную мощность ограниченного количества имеющихся — и не самых продвинутых — процессоров. Эту проблему инженеры Ляна успешно решили.

Из-за фокуса DeepSeek исключительно на исследованиях, в которые вовлечён и фаундер, игроки отрасли видят в стартапе опасного конкурента. Он не брал инвестиций от внешних фондов и сам монетизирует свои модели. Инвесторы сравнивают DeepSeek с ранним DeepMind, когда тот занимался лишь исследованиями и разработками. Зарплаты сотрудникам DeepSeek Лян выплачивает из доходов своего хедж-фонда. Причём это зарплаты уровня ByteDance — самые высокие среди ИИ-специалистов в Китае. У DeepSeek есть офисы в Ханчжоу и Пекине. Сотрудники, которых набирает Лян, получали образование на родине, а не в США, а в ядре команды, по его словам, «нет людей, которые вернулись из-за рубежа». Он убеждён, что взращивать таланты нужно самостоятельно.

Калифорнийские эксперты отмечают, что первопроходцам в обучении моделей сложнее всего и они несут самые большие расходы, а последующие компании могут прогрессировать быстрее и дешевле. Также, по их словам, в Китае гораздо больше, чем в США, пул инженеров, которые знают, как оптимальнее использовать вычислительные ресурсы и делать модели дешевле. Но несмотря на огромный начальный успех DeepSeek игроки отрасли не уверены, что стартап сможет оставаться конкурентоспособной по мере развития ИИ-сферы.

По сообщению Bloomberg, приложение DeepSeek за выходные вышло в лидеры в бесплатном топе в американском сегменте App Store, обогнав ChatGPT. Фьючерсы на технологический индекс Nasdaq 100 в Азии сегодня снизились почти на 2%, а котировки Nvidia на премаркете упали на 10%.

Stargate — мегастартап США в сфере ИИ. Что о нем известно
По теме
Stargate — мегастартап США в сфере ИИ. Что о нем известно
OpenAI запустила ИИ-агента, который может купить продукты и забронировать билеты вместо пользователя
По теме
OpenAI запустила ИИ-агента, который может купить продукты и забронировать билеты вместо пользователя
Perplexity запустил ИИ-ассистента
По теме
Perplexity запустил ИИ-ассистента
Google: до конца года будут протестированы лекарства, созданные ИИ, а «миллиарды» ИИ-агентов заставят переосмыслить «Всемирную паутину»
По теме
Google: до конца года будут протестированы лекарства, созданные ИИ, а «миллиарды» ИИ-агентов заставят переосмыслить «Всемирную паутину»

Читать на dev.by