Кітайскі стартап выпусціў разважаючую мадэль, якая лепш за DeepSeek (які ў пачатку года абрынуў сусветныя рынкі)

Шанхайскі стартап MiniMax выпусціў вялікую моўную мадэль M1, якая ўмее «разважаць». Яна з адкрытым зыходным кодам і, паводле распрацоўшчыкаў, пераўзыходзіць прапрыетарных кітайскіх канкурэнтаў. Напрыклад, на некаторых бэнчмарках яна паказала сябе лепш за найноўшую версію мадэлі R1 ад нашумелага стартапа DeepSeek. У MiniMax ужо інвеставалі такія тэхнагіганты, як Tencent і Alibaba.

Пакінуць каментарый

M1 мае велізарнае кантэкстнае акно ў 1 млн токенаў — у 8 разоў больш, чым у R1 і топавых мадэляў OpenAI (128 тысяч). Таксама ў некаторых выпадках мадэль MiniMax патрабуе толькі 30% рэсурсаў, якія выдаткавала б мадэль DeepSeek. Стартап выкарыстаў механізм «маланкавай увагі» (lightning attention), які дазваляе мадэлі хутчэй і эканамічней апрацоўваць доўгія запыты.

У тэстах на праграмаванне і матэматыку M1 пераўзыйшла R1 і Qwen3-235B ад Alibaba, але саступіла o3 ад OpenAI і Gemini 2.5 Pro. На трэніроўку спатрэбілася 512 паскаральнікаў H800 ад Nvidia, на арэнду якіх было выдаткавана $534,7 тысячы.

Мадэль даступная на HuggingFace і на GitHub.

Кітайскі АІ-стартап нарабіў шуму ў Даліне, абагнаў ChatGPT у App Store, пацягнуў уніз Nasdaq
Па тэме
Кітайскі АІ-стартап нарабіў шуму ў Даліне, абагнаў ChatGPT у App Store, пацягнуў уніз Nasdaq
DeepSeek дае еўрапейскім тэхнакампаніям шанец нагнаць пазіцыі ў сусветнай АІ-гонцы
Па тэме
DeepSeek дае еўрапейскім тэхнакампаніям шанец нагнаць пазіцыі ў сусветнай АІ-гонцы

Читать на dev.by