Даследчыкі навучылі ШІ-мадэль з нуля ўсяго за $1500
Даследчыкі з Sapient Intelligence заявілі, што змаглі навучыць моўную мадэль з нуля за нязначную суму. Звычайна стварэнне базавых мадэляў патрабуе мільёнаў долараў, вялікіх масіваў дадзеных ды інфраструктуры, даступнай галоўным чынам буйным ШІ-лабараторыям.
Даследчыкі з Sapient Intelligence заявілі, што змаглі навучыць моўную мадэль з нуля за нязначную суму. Звычайна стварэнне базавых мадэляў патрабуе мільёнаў долараў, вялікіх масіваў дадзеных ды інфраструктуры, даступнай галоўным чынам буйным ШІ-лабараторыям.
У мадэлі HRM-Text выкарыстоўваецца не звычайная Transformer-архітэктура, а іерархічная рэкурэнтная мадэль. Яна падзяляе працэс разважання на два ўзроўні: больш «павольны» адказвае за агульны сэнс і стратэгію вырашэння, а больш «хуткі» — за удакладненне дэталяў і выкананне асобных крокаў.
У адрозненне ад звычайных LLM, якія навучаюцца прадказваць наступны токен на велізарных масівах інтэрнэт-тэксту, HRM-Text навучалі толькі на парах «інструкцыя — адказ». Даследчыкі лічаць, што такі падыход бліжэй да таго, як мадэлі выкарыстоўваюцца ў бізнесе: карыстальнік ставіць канкрэтную задачу і чакае карысны адказ.
Даследчыкі Sapient навучылі мадэль на 1 мільярдзе параметраў менш чым за два дні на кластары з 16 GPU. Для навучання выкарыстоўвалася каля 40 мільярдаў токенаў — значна менш, чым у многіх сучасных моўных мадэляў.
Паводле аўтараў, HRM-Text паказала канкурэнтныя вынікі на шэрагу бенчмаркаў. Мадэль набрала 60,7% на MMLU, 84,5% на GSM8K і 56,2% на MATH, што суадносна з некаторымі open source-мадэлямі на 2–7 мільярдаў параметраў.
Галоўная выснова даследавання: базавым мадэлям неабавязкова запамінаць увесь інтэрнэт, каб быць карыснымі для разважання. У Sapient лічаць, што кампаніям можа быць спарней навучаць кампактныя мадэлі пад уласныя задачы, а фактычныя веды атрымліваць з вонкавых базаў дадзеных і retrieval-сістэмаў.
Генеральны дырэктар Sapient Intelligence Гуань Ван лічыць, што для бізнесу праблема не толькі ў кошце навучання, але і ў хуткасці эксперыментаў. «Калі навучанне здольнай да разважання мадэлі каштуе каля $1500, ШІ перастае быць толькі пытаннем інфраструктуры і становіцца пытаннем стратэгіі», — заявіў ён.
Такі падыход можа быць асабліва цікавы банкам, страхавым кампаніям, хедж-фондам ды іншым арганізацыям з уразлівымі ўнутранымі дадзенымі. Замест адпраўкі гэтых дадзеных у вонкавыя мадэлі яны могуць навучаць кампактныя мадэлі ў кантраляваным асяроддзі.
Аднак Sapient прызнае, што HRM-Text пакуль не з’яўляецца паўнавартасным замяшчэннем папулярных ШІ-сістэмаў. Гэта хутчэй дэманстрацыя таго, што альтэрнатыўная архітэктура можа рэзка знізіць кошт навучання мадэляў для задачаў, якія патрабуюць разважання.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.