Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў
Даследчыкі Масачусецкага тэхналагічнага інстытута (MIT) прэзентавалі інавацыйную архітэктуру SEAL (Self-Edit and Learn). Яна дазваляе вялікім моўным мадэлям самастойна генераваць навучальныя дадзеныя і паляпшаць сваю працу без знешняй дапамогі.
Новая сістэма функцыянуе ў два этапы. Спачатку мадэль з дапамогай навучання з падмацаваннем (reinforcement learning) стварае «самавыпраўленні» — інструкцыі на натуральнай мове, якія апісваюць, як змяніць навучальныя дадзеныя і задаць параметры аптымізацыі. Затым гэтыя інструкцыі прымяняюцца для абнаўлення вагаў мадэлі, фактычна ператвараючы яе ў аўтаномную навучальную сістэму.
Алгарытм адбірае толькі тыя самавыпраўленні, якія сапраўды падвышаюць якасць мадэлі. Замест поўнай перанавучальнасці выкарыстоўваецца тэхніка Low-Rank Adapters (LoRA), якая дазваляе хутка абнаўляць мадэль з мінімальнымі выдаткамі рэсурсаў.
У тэстах SEAL прадэманстравала высокія вынікі. На задачы тэкставай логікі мадэль Qwen2.5-7B дасягнула дакладнасці 47%, апярэдзіўшы не толькі альтэрнатыўныя метады (33,5%), але і GPT-4.1, нягледзячы на меншы маштаб. У другім эксперыменце, з мадэллю Llama 3.2-1B на задачы разважанняў, сістэма з SEAL дасягнула поспеху ў 72,5% выпадкаў — супраць 20% у мадэлі без папярэдняга навучання.
Аднак у метаду ёсць недахопы. Галоўная праблема — «катастрафічнае забыванне»: пры навучанні на новых задачах мадэль губляе дакладнасць на раней асвоеных. Акрамя таго, кожны цыкл самавыпраўлення патрабуе 30-45 секунд, што робіць навучанне даволі выдатковым.
Распрацоўшчыкі паказваюць, што новая методыка можа стаць прарывам у пераадоленні так званай «сцяны дадзеных» — мяжы, за якой заканчваюцца ўсе даступныя чалавечыя тэкставыя датасэты. На думку экспертаў, распрацоўка SEAL — гэта спроба справіцца з абмежаваннем маштабавальнасці ШІ-мадэляў, звязаным з недахопам якасных тэкстаў.
Ва умовах, калі паўторнае навучанне на ШІ-генераваных дадзеных можа пагаршаць мадэль (эфект «калапсу мадэлі»), аўтаномнае навучанне на ўласных, высакаякасных самавыпраўленнях адкрывае шлях да ўстойлівага развіцця ШІ. Зыходны код SEAL ужо апублікаваны на GitHub.
Читать на dev.by