Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў

Даследчыкі Масачусецкага тэхналагічнага інстытута (MIT) прэзентавалі інавацыйную архітэктуру SEAL (Self-Edit and Learn). Яна дазваляе вялікім моўным мадэлям самастойна генераваць навучальныя дадзеныя і паляпшаць сваю працу без знешняй дапамогі.

Пакінуць каментарый

Новая сістэма функцыянуе ў два этапы. Спачатку мадэль з дапамогай навучання з падмацаваннем (reinforcement learning) стварае «самавыпраўленні» — інструкцыі на натуральнай мове, якія апісваюць, як змяніць навучальныя дадзеныя і задаць параметры аптымізацыі. Затым гэтыя інструкцыі прымяняюцца для абнаўлення вагаў мадэлі, фактычна ператвараючы яе ў аўтаномную навучальную сістэму.

Алгарытм адбірае толькі тыя самавыпраўленні, якія сапраўды падвышаюць якасць мадэлі. Замест поўнай перанавучальнасці выкарыстоўваецца тэхніка Low-Rank Adapters (LoRA), якая дазваляе хутка абнаўляць мадэль з мінімальнымі выдаткамі рэсурсаў.

У тэстах SEAL прадэманстравала высокія вынікі. На задачы тэкставай логікі мадэль Qwen2.5-7B дасягнула дакладнасці 47%, апярэдзіўшы не толькі альтэрнатыўныя метады (33,5%), але і GPT-4.1, нягледзячы на меншы маштаб. У другім эксперыменце, з мадэллю Llama 3.2-1B на задачы разважанняў, сістэма з SEAL дасягнула поспеху ў 72,5% выпадкаў — супраць 20% у мадэлі без папярэдняга навучання.

Аднак у метаду ёсць недахопы. Галоўная праблема — «катастрафічнае забыванне»: пры навучанні на новых задачах мадэль губляе дакладнасць на раней асвоеных. Акрамя таго, кожны цыкл самавыпраўлення патрабуе 30-45 секунд, што робіць навучанне даволі выдатковым.

Распрацоўшчыкі паказваюць, што новая методыка можа стаць прарывам у пераадоленні так званай «сцяны дадзеных» — мяжы, за якой заканчваюцца ўсе даступныя чалавечыя тэкставыя датасэты. На думку экспертаў, распрацоўка SEAL — гэта спроба справіцца з абмежаваннем маштабавальнасці ШІ-мадэляў, звязаным з недахопам якасных тэкстаў.

Ва умовах, калі паўторнае навучанне на ШІ-генераваных дадзеных можа пагаршаць мадэль (эфект «калапсу мадэлі»), аўтаномнае навучанне на ўласных, высакаякасных самавыпраўленнях адкрывае шлях да ўстойлівага развіцця ШІ. Зыходны код SEAL ужо апублікаваны на GitHub.

Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
Па тэме
Пітэр Ціль: ШІ не выратуе ад «стагнацыі» ў ІТ
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
Па тэме
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
Anthropic выяснит, кого ИИ лишит работы в ближайшее время
Па тэме
Anthropic выяснит, кого ИИ лишит работы в ближайшее время

Читать на dev.by