Николай Чикишев 25 марта 2025, 16:23

DeepSeek улучшила навыки программирования модели V3

Компания представила обновление своей открытой модели V3, которое значительно улучшает возможности программирования, а также устанавливает новые стандарты точности и эффективности.

Оставить комментарий

DeepSeek улучшила навыки программирования модели V3

Компания представила обновление своей открытой модели V3, которое значительно улучшает возможности программирования, а также устанавливает новые стандарты точности и эффективности.

Обновление было опубликовано на платформе Hugging Face. Согласно Reuters, метрики бенчмарков на Hugging Face демонстрируют значительные улучшения новой версии DeepSeek-V3-0324 в ключевых областях, таких как рассуждение и написание кода, по сравнению с предыдущей версией.

В DeepSeek заявляют, что их флагманская модель R1, выпущенная спустя несколько недель после V3, несмотря на скромный бюджет на разработку, по некоторым ключевым показателям превзошла ИИ-модель o1 от OpenAI. При определенных задачах использование R1 обходится в 20-50 раз дешевле, чем использование модели o1 от OpenAI.

V3 была представлена в конце прошлого года. Она построена на архитектуре Mixture of Experts и обладает общим количеством параметров в 671 миллиард, из которых 37 миллиардов активируются на каждый токен. Компания сообщала, что затраты на обучение DeepSeek V3 составили $5,5 миллиона, что значительно ниже расходов, понесенных другими технологическими гигантами, такими как OpenAI, на обучение сопоставимых моделей.

В январе приложение DeepSeek обогнало чат-бота ChatGPT и заняло первое место в рейтинге самых популярных бесплатных приложений в американском App Store. Успехи китайского стартапа привели к обрушению ИИ-рынка, в результате которого участники столкнулись со значительным падением стоимости акций. В частности, лидер рынка Nvidia 27 января потеряла $593 миллиарда рыночной капитализации, что стало крупнейшим однодневным падением в истории фондового рынка.