Китайский стартап выпустил рассуждающую модель, которая лучше DeepSeek (который в начале года обвалил мировые рынки)

Шанхайский стартап MiniMax выпустил большую языковую модель M1, умеющую «рассуждать». Она опенсорсная и, по словам разработчиков, превосходит проприетарных китайских конкурентов. Например, на некоторых бенчмарках она показала себя лучше новейшей версии модели R1 от нашумевшего стартапа DeepSeek. В MiniMax уже инвестировали такие техногиганты, как Tencent и Alibaba.

Оставить комментарий

M1 имеет огромное контекстное окно в 1 млн токенов — в 8 раз больше, чем у R1 и топовых моделей OpenAI (128 тысяч). Также в некоторых случаях модель MiniMax требует лишь 30% ресурсов, которые потратила бы модель DeepSeek. Стартап использовал механизм «молниеносного внимания» (lightning attention), который позволяет модели быстрее и экономнее обрабатывать длинные запросы.

В тестах на программирование и математику M1 превзошла R1 и Qwen3-235B от Alibaba, но уступила o3 от OpenAI и Gemini 2.5 Pro. На тренировку потребовалось 512 ускорителей H800 от Nvidia, на аренду которых было потрачено $534,7 тысячи.

Модель доступна на HuggingFace и на GitHub.

Китайский ИИ-стартап наделал шуму в Долине, обогнал ChatGPT в App Store, потянул вниз Nasdaq
По теме
Китайский ИИ-стартап наделал шуму в Долине, обогнал ChatGPT в App Store, потянул вниз Nasdaq
DeepSeek даёт европейским технокомпаниям шанс наверстать позиции в мировой ИИ-гонке
По теме
DeepSeek даёт европейским технокомпаниям шанс наверстать позиции в мировой ИИ-гонке

Читать на dev.by