DeepSeek снова открыл год с ноги: новый метод обучении ИИ уже назвали «прорывом»
Китайский ИИ-стартап DeepSeek начал 2026 год публикацией исследовательской работы, которую аналитики называют прорывом в масштабировании языковых моделей. Компания представила новый метод обучения ИИ, способный изменить подход к созданию больших фундаментальных моделей, пишет Business Insider.
В статье, соавтором которой выступил основатель DeepSeek Лян Вэньфэн, описывается метод Manifold-Constrained Hyper-Connections (mHC). Он позволяет масштабировать языковые модели без потери стабильности и без «развала» обучения — одной из ключевых проблем при росте моделей.
По мере увеличения размера моделей разработчики стараются усилить внутренний обмен информацией между разными частями нейросети. Это часто повышает качество, но одновременно делает обучение нестабильным и дорогим. В DeepSeek утверждают, что их подход позволяет моделям «общаться» внутри себя интенсивнее, но в жёстко заданных рамках, сохраняя стабильность и вычислительную эффективность.
Аналитик Counterpoint Research Вэй Сун назвала подход DeepSeek «поразительным прорывом». По её словам, компания смогла объединить несколько техник так, чтобы минимизировать рост стоимости обучения, при этом заметно повысив производительность моделей. Даже при небольшом увеличении затрат выигрыш в качестве может быть значительным.
По мнению Сун, статья демонстрирует внутренние возможности DeepSeek: компания умеет полностью переосмысливать стек обучения ИИ и сочетать быструю разработку с нестандартными исследовательскими идеями. Ранее DeepSeek уже удалось обойти вычислительные ограничения — в январе 2025 года стартап произвёл фурор моделью R1, которая по качеству сопоставлялась с лучшими западными аналогами, но обходилась значительно дешевле.
Главный аналитик Omdia Лян Цзе Су считает, что публикация может вызвать цепную реакцию в индустрии — другие ИИ-лаборатории начнут разрабатывать собственные версии подхода. А готовность делиться важными исследованиями он считает признаком возросшей уверенности китайской ИИ-индустрии, где открытость всё чаще используется как стратегическое преимущество.
Выход статьи совпал со слухами о подготовке следующей флагманской модели DeepSeek — R2. Её релиз ожидался в середине 2025 года, но был отложен из-за недовольства основателя качеством модели и из-за дефицита продвинутых ИИ-чипов. В самой статье R2 не упоминается, но аналитики обращают внимание, что DeepSeek публиковала ключевые исследования незадолго до запуска R1.
При этом аналитики отмечают, что несмотря на технологические успехи DeepSeek всё ещё уступает западным лидерам по дистрибуции и охвату, особенно на рынках США и Европы. Это может ограничить влияние даже самых сильных технических решений.
Читать на dev.by