Дапамажыце dev.by 🤍
Падтрымаць

Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў

Даследчыкі Масачусецкага тэхналагічнага інстытута (MIT) прэзентавалі інавацыйную архітэктуру SEAL (Self-Edit and Learn). Яна дазваляе вялікім моўным мадэлям самастойна генераваць навучальныя дадзеныя і паляпшаць сваю працу без знешняй дапамогі.

Пакінуць каментарый
Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў

Даследчыкі Масачусецкага тэхналагічнага інстытута (MIT) прэзентавалі інавацыйную архітэктуру SEAL (Self-Edit and Learn). Яна дазваляе вялікім моўным мадэлям самастойна генераваць навучальныя дадзеныя і паляпшаць сваю працу без знешняй дапамогі.

Новая сістэма функцыянуе ў два этапы. Спачатку мадэль з дапамогай навучання з падмацаваннем (reinforcement learning) стварае «самавыпраўленні» — інструкцыі на натуральнай мове, якія апісваюць, як змяніць навучальныя дадзеныя і задаць параметры аптымізацыі. Затым гэтыя інструкцыі прымяняюцца для абнаўлення вагаў мадэлі, фактычна ператвараючы яе ў аўтаномную навучальную сістэму.

Алгарытм адбірае толькі тыя самавыпраўленні, якія сапраўды падвышаюць якасць мадэлі. Замест поўнай перанавучальнасці выкарыстоўваецца тэхніка Low-Rank Adapters (LoRA), якая дазваляе хутка абнаўляць мадэль з мінімальнымі выдаткамі рэсурсаў.

У тэстах SEAL прадэманстравала высокія вынікі. На задачы тэкставай логікі мадэль Qwen2.5-7B дасягнула дакладнасці 47%, апярэдзіўшы не толькі альтэрнатыўныя метады (33,5%), але і GPT-4.1, нягледзячы на меншы маштаб. У другім эксперыменце, з мадэллю Llama 3.2-1B на задачы разважанняў, сістэма з SEAL дасягнула поспеху ў 72,5% выпадкаў — супраць 20% у мадэлі без папярэдняга навучання.

Аднак у метаду ёсць недахопы. Галоўная праблема — «катастрафічнае забыванне»: пры навучанні на новых задачах мадэль губляе дакладнасць на раней асвоеных. Акрамя таго, кожны цыкл самавыпраўлення патрабуе 30-45 секунд, што робіць навучанне даволі выдатковым.

Распрацоўшчыкі паказваюць, што новая методыка можа стаць прарывам у пераадоленні так званай «сцяны дадзеных» — мяжы, за якой заканчваюцца ўсе даступныя чалавечыя тэкставыя датасэты. На думку экспертаў, распрацоўка SEAL — гэта спроба справіцца з абмежаваннем маштабавальнасці ШІ-мадэляў, звязаным з недахопам якасных тэкстаў.

Ва умовах, калі паўторнае навучанне на ШІ-генераваных дадзеных можа пагаршаць мадэль (эфект «калапсу мадэлі»), аўтаномнае навучанне на ўласных, высакаякасных самавыпраўленнях адкрывае шлях да ўстойлівага развіцця ШІ. Зыходны код SEAL ужо апублікаваны на GitHub.

Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
Па тэме
Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
Па тэме
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
Anthropic выяснит кого ИИ лишит работы в ближайшее время
Anthropic выяснит, кого ИИ лишит работы в ближайшее время
Па тэме
Anthropic выяснит, кого ИИ лишит работы в ближайшее время
Чытайце таксама
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
3 каментарыя
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.