Дапамажыце dev.by 🤍
Падтрымаць

Даследчыкі навучылі ШІ-мадэль з нуля ўсяго за $1500

Даследчыкі з Sapient Intelligence заявілі, што змаглі навучыць моўную мадэль з нуля за нязначную суму. Звычайна стварэнне базавых мадэляў патрабуе мільёнаў долараў, вялікіх масіваў дадзеных ды інфраструктуры, даступнай галоўным чынам буйным ШІ-лабараторыям.

Пакінуць каментарый
Даследчыкі навучылі ШІ-мадэль з нуля ўсяго за $1500

Даследчыкі з Sapient Intelligence заявілі, што змаглі навучыць моўную мадэль з нуля за нязначную суму. Звычайна стварэнне базавых мадэляў патрабуе мільёнаў долараў, вялікіх масіваў дадзеных ды інфраструктуры, даступнай галоўным чынам буйным ШІ-лабараторыям.

У мадэлі HRM-Text выкарыстоўваецца не звычайная Transformer-архітэктура, а іерархічная рэкурэнтная мадэль. Яна падзяляе працэс разважання на два ўзроўні: больш «павольны» адказвае за агульны сэнс і стратэгію вырашэння, а больш «хуткі» — за удакладненне дэталяў і выкананне асобных крокаў.

У адрозненне ад звычайных LLM, якія навучаюцца прадказваць наступны токен на велізарных масівах інтэрнэт-тэксту, HRM-Text навучалі толькі на парах «інструкцыя — адказ». Даследчыкі лічаць, што такі падыход бліжэй да таго, як мадэлі выкарыстоўваюцца ў бізнесе: карыстальнік ставіць канкрэтную задачу і чакае карысны адказ.

Даследчыкі Sapient навучылі мадэль на 1 мільярдзе параметраў менш чым за два дні на кластары з 16 GPU. Для навучання выкарыстоўвалася каля 40 мільярдаў токенаў — значна менш, чым у многіх сучасных моўных мадэляў.

Паводле аўтараў, HRM-Text паказала канкурэнтныя вынікі на шэрагу бенчмаркаў. Мадэль набрала 60,7% на MMLU, 84,5% на GSM8K і 56,2% на MATH, што суадносна з некаторымі open source-мадэлямі на 2–7 мільярдаў параметраў.

Галоўная выснова даследавання: базавым мадэлям неабавязкова запамінаць увесь інтэрнэт, каб быць карыснымі для разважання. У Sapient лічаць, што кампаніям можа быць спарней навучаць кампактныя мадэлі пад уласныя задачы, а фактычныя веды атрымліваць з вонкавых базаў дадзеных і retrieval-сістэмаў.

Генеральны дырэктар Sapient Intelligence Гуань Ван лічыць, што для бізнесу праблема не толькі ў кошце навучання, але і ў хуткасці эксперыментаў. «Калі навучанне здольнай да разважання мадэлі каштуе каля $1500, ШІ перастае быць толькі пытаннем інфраструктуры і становіцца пытаннем стратэгіі», — заявіў ён.

Такі падыход можа быць асабліва цікавы банкам, страхавым кампаніям, хедж-фондам ды іншым арганізацыям з уразлівымі ўнутранымі дадзенымі. Замест адпраўкі гэтых дадзеных у вонкавыя мадэлі яны могуць навучаць кампактныя мадэлі ў кантраляваным асяроддзі.

Аднак Sapient прызнае, што HRM-Text пакуль не з’яўляецца паўнавартасным замяшчэннем папулярных ШІ-сістэмаў. Гэта хутчэй дэманстрацыя таго, што альтэрнатыўная архітэктура можа рэзка знізіць кошт навучання мадэляў для задачаў, якія патрабуюць разважання.

Microsoft забараніла супрацоўнікам выкарыстоўваць Claude Fable 5: збянтэжыла палітыка даных Anthropic
Microsoft забараніла супрацоўнікам выкарыстоўваць Claude Fable 5: збянтэжыла палітыка даных Anthropic
Па тэме
Microsoft забараніла супрацоўнікам выкарыстоўваць Claude Fable 5: збянтэжыла палітыка даных Anthropic
Колькі бізнес марнуе на ІІ у разліку на супрацоўніка? Новыя даныя за чэрвень
Колькі бізнес марнуе на ІІ у разліку на супрацоўніка? Новыя даныя за чэрвень
Па тэме
Колькі бізнес марнуе на ІІ у разліку на супрацоўніка? Новыя даныя за чэрвень
Толькі 26% кампаній цалкам кантралююць выдаткі на ІІ
Толькі 26% кампаній цалкам кантралююць выдаткі на ІІ 
Па тэме
Толькі 26% кампаній цалкам кантралююць выдаткі на ІІ
Чытайце таксама
Кітайскі ШІ DeepSeek навучылі за $294 000. Гэта ў сотні разоў танней, чым у OpenAI
Кітайскі ШІ DeepSeek навучылі за $294 000. Гэта ў сотні разоў танней, чым у OpenAI
Кітайскі ШІ DeepSeek навучылі за $294 000. Гэта ў сотні разоў танней, чым у OpenAI
1 каментарый
ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей
ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей
ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей
2 каментарыя
Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль
Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль
Усяго 250 дакументаў могуць «атруціць» любую ШІ-мадэль
Даследчыкі навучылі ШІ-мадэль з нуля ўсяго за $1500
Даследчыкі навучылі ШІ-мадэль з нуля ўсяго за $1500
Даследчыкі навучылі ШІ-мадэль з нуля ўсяго за $1500

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.