Чаму ШІ так часта памыляецца? Падаецца, навукоўцы знайшлі адказ

Буйныя ШІ-мадэлі, нягледзячы на іх тэарэтычную здольнасць прымаць правільныя рашэнні, на практыцы часта дэманструюць слабыя вынікі. Навукоўцы паспрабавалі высветліць, чаму так адбываецца.

3 каментарыя

Нядаўняе даследаванне, апублікаванае ў выглядзе прэпрынта навукоўцамі з Лінцкага ўніверсітэта і Google DeepMind, раскрывае прычыны, чаму ШІ-мадэлям складана прымаць рашэнні. У якасці прыкладу даследчыкі ўзялі гульню ў «крыжыкі-нулікі» і задачу з «многарукім бандытам» (multi-armed bandit problem) — задачу аптымальнага размеркавання рэсурсаў ва ўмовах няпэўнасці. У ходзе эксперыментаў з тэкставымі версіямі гэтых задач навукоўцы выявілі, што мадэлі часта робяць няправільны выбар, нават маючы ўсю неабходную інфармацыю для правільнага рашэння.

Даследаванне ўключала 50-крокавыя тэсты прыняцця рашэнняў з рознымі наладкамі, уключаючы задачы з пяццю, дзесяццю або дваццаццю магчымымі дзеяннямі і рознымі ўзроўнямі выпадковасці. Навукоўцы вызначылі тры асноўныя праблемы, што перашкаджаюць мадэлям: схільнасць выбіраць першыя паспяховыя дзеянні без вывучэння іншых варыянтаў; перавага дзеянняў, якія сустракаліся раней, нават калі яны не былі паспяховымі; і разрыў паміж тым, што мадэль ведае, і тым, што яна робіць.

Даследаванне было засяроджана на сямействе мадэляў Google Gemma 2 у трох памерах: 2, 9 і 27 мільярдаў параметраў. Мадэлі часта зацыкліваліся на ранніх дзеяннях, якія здаваліся перспектыўнымі, ігнаруючы іншыя магчымасці. У тэстах з дзесяццю магчымымі дзеяннямі нават самыя вялікія мадэлі даследавалі толькі каля дзвюх трацін варыянтаў, а без выкарыстання ланцужка разважанняў гэты паказчык быў яшчэ ніжэй. Меншыя мадэлі, такія як Gemma 2-2B, часта выбіралі дзеянні, што сустракаліся часцей, нават калі яны былі неэфектыўныя.

Гэта памылка, вядомая як частотнае зрушэнне, назіралася ў 96% выпадкаў для мадэлі з 2 мільярдамі параметраў, калі дзеянне паўтаралася некалькі разоў. Больш буйныя мадэлі радзей дапускалі гэтую памылку, але былі больш схільныя да стэрэатыпных паводзін, выбіраючы толькі знаёмыя дзеянні.

Адна з ключавых праблем — разрыў паміж веданнем і дзеяннем. Гэты разрыў добра знаёмы ўсім, хто працаваў з моўнымі мадэлямі: мадэль можа патлумачыць сваю памылку, але пасля паўтарыць яе. Для вырашэння гэтай праблемы даследчыкі выкарысталі тонкую наладу з падмацаваннем, навучаючы мадэлі ствараць уласныя тлумачэнні і вучыцца на іх. Пасля 30 тысяч крокаў навучання прадукцыйнасць палепшылася: самая маленькая мадэль даследавала на 12% больш дзеянняў і скараціла колькасць памылак. У гульні ў крыжыкі-нулікі яе працэнт перамог супраць выпадковага суперніка вырас з 15% да 75%, а супраць больш моцнага ШІ-суперніка мадэль здолела дасягнуць нічыі пры наяўнасці кантэкстнай інфармацыі пра дазволеныя дзеянні.

Даследаванне паказала, што без аптымізацыі самая маленькая мадэль даследавала толькі 40% даступных варыянтаў у задачы з дзесяццю дзеяннямі, у той час як больш буйныя мадэлі ахоплівалі каля 65%. Без ланцужка разважанняў гэты паказчык зніжаўся да 25%. Пры павелічэнні колькасці дзеянняў да 20 нават самыя буйныя мадэлі даследавалі толькі 45%, прычым вывучэнне новых варыянтаў звычайна спынялася пасля дзесяці крокаў.

Навучанне дапамагло палепшыць сітуацыю, але мадэлі ўсё адно пазбягалі незнаёмых дзеянняў. Каб павысіць узровень даследавання, вучоныя пратэставалі некалькі метадаў, уключаючы дадаванне выпадковасці на ранніх этапах, узнагароджанне за новыя дзеянні і стратэгіі самакарэкцыі. Найбольш эфектыўным аказаўся просты падыход, пры якім мадэль павінна была паспрабаваць кожнае дзеянне хаця б раз у пачатку, што наблізіла вынікі да аптымальных. Прызначэнне бонуснага бала за кожнае новае дзеянне таксама павялічыла ахоп дзеянняў з 50% да 70%.

Эксперымент таксама паказаў важнасць ланцужка разважанняў. Без яго нават дадатковае навучанне давала мінімальны эфект. Яшчэ адным ключавым фактарам аказаўся час на роздум, які вымяраўся колькасцю токенаў, якія мадэль магла выкарыстаць для прыняцця рашэння. Большая колькасць токенаў паляпшала вынікі, але павялічвала выдаткі на вылічэнні. Гэты падыход — спалучэнне навучання з ланцужком разважанняў і павелічэння бюджэту токенаў — ляжыць у аснове прагрэсу сучасных мадэляў у такіх сферах, як праграмаванне і матэматыка.

Microsoft прэзентавала праект NLWeb — для ператварэння сайтаў у ШІ-аплікацыі
Па тэме
Microsoft прэзентавала праект NLWeb — для ператварэння сайтаў у ШІ-аплікацыі
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Па тэме
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
ШІ уяўляе большую пагрозу для працы жанчын, чым мужчын
Па тэме
ШІ уяўляе большую пагрозу для працы жанчын, чым мужчын

Читать на dev.by