DeepSeek выпустила DSpark: помощник ускоряет ответы ИИ до 85%
Компания представила и открыла исходный код DSpark — системы для ускорения генерации ответов у больших языковых моделей. По данным DeepSeek, технология может увеличить скорость выдачи токенов для одного пользователя на 57–85% в зависимости от модели и нагрузки.
Компания представила и открыла исходный код DSpark — системы для ускорения генерации ответов у больших языковых моделей. По данным DeepSeek, технология может увеличить скорость выдачи токенов для одного пользователя на 57–85% в зависимости от модели и нагрузки.
DSpark уже применяется в моделях DeepSeek-V4-Flash и DeepSeek-V4-Pro. Компания утверждает, что при сопоставимой вычислительной мощности система повысила скорость генерации на 60–85% для V4-Flash и на 57–78% для V4-Pro по сравнению с предыдущим механизмом MTP-1.
Обычно языковые модели генерируют текст последовательно — токен за токеном. Это снижает эффективность GPU при длинных ответах и увеличивает задержку для пользователя. DSpark использует speculative decoding: легкая вспомогательная модель заранее предлагает несколько следующих токенов, а основная модель затем проверяет их пакетно. Если прогноз оказался верным, система может сгенерировать сразу несколько токенов вместо одного.
Разработка DeepSeek отличается от обычных схем speculative decoding двумя механизмами. Первый — полуавторегрессионная генерация: система формирует небольшие блоки токенов, но учитывает связь между ними, чтобы снизить число ошибок в прогнозах. Второй — планировщик, который регулирует объем проверки в зависимости от уверенности модели и текущей нагрузки на инфраструктуру.
DeepSeek также опубликовала DeepSpec — набор инструментов для обучения и оценки таких систем, а также готовые контрольные точки для нескольких открытых семейств моделей. В тестах компании DSpark работала не только с DeepSeek-V4, но и с Qwen и Gemma.
Технология распространяется по лицензии MIT. Это означает, что разработчики и компании смогут адаптировать ее для собственных открытых моделей, хотя для этого потребуется доступ к весам модели и инфраструктуре инференса. Пользователи закрытых API, например OpenAI или Anthropic, не смогут подключить DSpark самостоятельно: такую оптимизацию должен внедрять сам провайдер.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.