Дапамажыце dev.by 🤍
Падтрымаць

Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў

Даследчыкі Масачусецкага тэхналагічнага інстытута (MIT) прэзентавалі інавацыйную архітэктуру SEAL (Self-Edit and Learn). Яна дазваляе вялікім моўным мадэлям самастойна генераваць навучальныя дадзеныя і паляпшаць сваю працу без знешняй дапамогі.

Пакінуць каментарый
Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў

Даследчыкі Масачусецкага тэхналагічнага інстытута (MIT) прэзентавалі інавацыйную архітэктуру SEAL (Self-Edit and Learn). Яна дазваляе вялікім моўным мадэлям самастойна генераваць навучальныя дадзеныя і паляпшаць сваю працу без знешняй дапамогі.

Новая сістэма функцыянуе ў два этапы. Спачатку мадэль з дапамогай навучання з падмацаваннем (reinforcement learning) стварае «самавыпраўленні» — інструкцыі на натуральнай мове, якія апісваюць, як змяніць навучальныя дадзеныя і задаць параметры аптымізацыі. Затым гэтыя інструкцыі прымяняюцца для абнаўлення вагаў мадэлі, фактычна ператвараючы яе ў аўтаномную навучальную сістэму.

Алгарытм адбірае толькі тыя самавыпраўленні, якія сапраўды падвышаюць якасць мадэлі. Замест поўнай перанавучальнасці выкарыстоўваецца тэхніка Low-Rank Adapters (LoRA), якая дазваляе хутка абнаўляць мадэль з мінімальнымі выдаткамі рэсурсаў.

У тэстах SEAL прадэманстравала высокія вынікі. На задачы тэкставай логікі мадэль Qwen2.5-7B дасягнула дакладнасці 47%, апярэдзіўшы не толькі альтэрнатыўныя метады (33,5%), але і GPT-4.1, нягледзячы на меншы маштаб. У другім эксперыменце, з мадэллю Llama 3.2-1B на задачы разважанняў, сістэма з SEAL дасягнула поспеху ў 72,5% выпадкаў — супраць 20% у мадэлі без папярэдняга навучання.

Аднак у метаду ёсць недахопы. Галоўная праблема — «катастрафічнае забыванне»: пры навучанні на новых задачах мадэль губляе дакладнасць на раней асвоеных. Акрамя таго, кожны цыкл самавыпраўлення патрабуе 30-45 секунд, што робіць навучанне даволі выдатковым.

Распрацоўшчыкі паказваюць, што новая методыка можа стаць прарывам у пераадоленні так званай «сцяны дадзеных» — мяжы, за якой заканчваюцца ўсе даступныя чалавечыя тэкставыя датасэты. На думку экспертаў, распрацоўка SEAL — гэта спроба справіцца з абмежаваннем маштабавальнасці ШІ-мадэляў, звязаным з недахопам якасных тэкстаў.

Ва умовах, калі паўторнае навучанне на ШІ-генераваных дадзеных можа пагаршаць мадэль (эфект «калапсу мадэлі»), аўтаномнае навучанне на ўласных, высакаякасных самавыпраўленнях адкрывае шлях да ўстойлівага развіцця ШІ. Зыходны код SEAL ужо апублікаваны на GitHub.

Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
Па тэме
Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
Па тэме
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
Anthropic выяснит кого ИИ лишит работы в ближайшее время
Anthropic выяснит, кого ИИ лишит работы в ближайшее время
Па тэме
Anthropic выяснит, кого ИИ лишит работы в ближайшее время
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.