Отдел новостей world 17 июня 2025, 19:34

Китайский стартап выпустил рассуждающую модель, которая лучше DeepSeek (который в начале года обвалил мировые рынки)

Шанхайский стартап MiniMax выпустил большую языковую модель M1, умеющую «рассуждать». Она опенсорсная и, по словам разработчиков, превосходит проприетарных китайских конкурентов. Например, на некоторых бенчмарках она показала себя лучше новейшей версии модели R1 от нашумевшего стартапа DeepSeek. В MiniMax уже инвестировали такие техногиганты, как Tencent и Alibaba.

Оставить комментарий

Шанхайский стартап MiniMax выпустил большую языковую модель M1, умеющую «рассуждать». Она опенсорсная и, по словам разработчиков, превосходит проприетарных китайских конкурентов. Например, на некоторых бенчмарках она показала себя лучше новейшей версии модели R1 от нашумевшего стартапа DeepSeek. В MiniMax уже инвестировали такие техногиганты, как Tencent и Alibaba.

M1 имеет огромное контекстное окно в 1 млн токенов — в 8 раз больше, чем у R1 и топовых моделей OpenAI (128 тысяч). Также в некоторых случаях модель MiniMax требует лишь 30% ресурсов, которые потратила бы модель DeepSeek. Стартап использовал механизм «молниеносного внимания» (lightning attention), который позволяет модели быстрее и экономнее обрабатывать длинные запросы.

Day 1/5 of #MiniMaxWeek: We’re open-sourcing MiniMax-M1, our latest LLM — setting new standards in long-context reasoning.

— World’s longest context window: 1M-token input, 80k-token output
— State-of-the-art agentic use among open-source models
— RL at unmatched efficiency:… pic.twitter.com/bGfDlZA54n
— MiniMax (official) (@MiniMax__AI) June 16, 2025

В тестах на программирование и математику M1 превзошла R1 и Qwen3-235B от Alibaba, но уступила o3 от OpenAI и Gemini 2.5 Pro. На тренировку потребовалось 512 ускорителей H800 от Nvidia, на аренду которых было потрачено $534,7 тысячи.

Модель доступна на HuggingFace и на GitHub.