Прарыў АІ — гэта аблуда: навукоўцы лічаць, што людзі падманваюць самі сябе
Група амерыканскіх навукоўцаў кінула выклік ходкаму ўяўленню аб тэхналагічным прарыве, звязаным з развіццём АІ-мадэляў. Даследчыкі сцвярджаюць, што скачок магчымасцяў штучнага інтэлекту — гэта памылка яго стваральнікаў.
Новае даследаванне навукоўцаў Стэнфардскага ўніверсітэта збянтэжыла даследчыкаў вялікіх моўных мадэляў (LLM). Увагу навукоўцаў прыцягнулі так званыя раптоўныя «скачкі здольнасцяў», якія ўзнікаюць у LLM па меры павелічэння іх памеру і складанасці. Скачкі прадукцыйнасці распалілі спрэчкі аб непрадказальнасці і патэнцыяле АІ. Даследчыкі Стэнфарда прыйшлі да высновы, што насамрэч гэтыя з’явы не такія спантанныя і непрадказальныя, як лічыцца. Усё залежыць ад таго, як іх інтэрпрэтаваць.
Навукоўцы высунулі гіпотэзу, што эмерджэнтныя здольнасці штучнага інтэлекту — гэта аблуда даследчыкаў, якія працуюць з ім. У тэсціраванні Beyond The Imitation Game benchmark (BIG-bench) узялі ўдзел больш за 450 даследчыкаў, якія склалі 204 заданні для вывучэння магчымасцяў LLM.
Эмерджэнтныя здольнасці АІ выклікаюць спрэчкі як сярод навукоўцаў, так і сярод распрацоўшчыкаў. З боку гэта выглядае невытлумачальна: напрыклад, GPT-4 можа раптам выдаваць інфармацыю, на веданне якой яна не была запраграмаваная. Мадэль здольная перакладаць тэкст з мовы, хоць не была гэтаму навучаная. Даследчыкі Microsoft нават заяўлялі, што GPT-4 паказвае «іскры агульнага штучнага інтэлекту» і здольная «вырашаць новыя і складаныя задачы без якіх-небудзь спецыяльных падказак».
Тэст паказаў, што прадукцыйнасць LLM у многіх задачах прадказальна паляпшалася з павелічэннем памеру мадэлі. Аднак у некаторых задачах назіраліся нечаканыя скачкі прадукцыйнасці. Гэтыя вынікі заахвоцілі даследчыкаў апісаць пэўныя здольнасці LLM, параўнаўшы іх з фазавым пераходам у фізіцы, калі рэчыва пераходзіць з адной тэрмадынамічнай фазы ў іншую пры змене знешніх умоў. Прасцей кажучы, калі вада ператвараецца ў лёд.
Спрэчкі вакол прыроды такіх скачкоў — гэта этычнае пытанне, яое закранае бяспеку АІ-мадэляў. Непрадказальнасць эмерджэнтных здольнасцяў штучнага інтэлекту мае на ўвазе, што LLM могуць развіваць здольнасці, якія выходзяць за рамкі нашага бягучага разумення або кантролю АІ. Калі не растлумачыць прыроды скачкоў, то ад штучнага інтэлекту можна чакаць чаго заўгодна ў любы момант.
Стэнфардскія навукоўцы сцвярджаюць: тое, што ўспрымалася як невытлумачальныя скачкі прадукцыйнасці, насамрэч — адлюстраванне таго, як здольнасці АІ вымяраюцца. Даследчыкі мяркуюць, што паказчыкі, якія выкарыстоўваюцца для ацэнкі эфектыўнасці LLM, могуць не адлюстроўваць паступовых паляпшэнняў, што адбываюцца па меры маштабавання мадэляў. Прапанаваныя паказчыкі могуць распазнаваць прадукцыйнасць толькі пасля перавышэння пэўнага парога. Менавіта гэта стварае ілюзію раптоўнага скачка.
Напрыклад, у такіх задачах, як складанне трохзначных лікаў, папярэднія даследаванні паведамлялі, што GPT-3 або LAMDA памыляліся пры меншай колькасці параметраў, але рэзка мелі поспех пры большай. Амерыканскія даследчыкі мяркуюць, што скачка не будзе, калі выкарыстоўваць іншы спосаб вымярэння. Трэба прысуджаць частковую ацэнку за прыблізна правільныя адказы, а не дакладнае супадзенне. Тады павышэнне прадукцыйнасці будзе выглядаць паступовым, а не раптоўным. Калі замяніць бінарную ацэнку «правільна/няправільна» на сістэму з градацыяй правільнасці — ніякіх раптоўных скачкоў не ўзнікне.
Даследчыкі не адмаўляюць, што LLM значна паляпшаюць вынікі працы з павелічэннем маштабу. Іх эксперымент хутчэй уносіць нюансы ў нашае разуменне таго, як адбываецца гэтае паляпшэнне. Нягледзячы на пераканаўчыя доказы, дыскусія аб эмерджэнтных здольнасцях пакуль далёкая ад завяршэння. Некаторыя навукоўцы пярэчаць, што больш дэталёвая градацыя ацэнкі прадукцыйнасці АІ дастасоўная да любых абласцей, тым больш да арыфметыкі, дзе важныя дакладныя вынікі. Іншыя даследчыкі настойваюць, што скачкі назіраюцца нават у выпадку, калі выкарыстоўваць удасканалены метад ацэнкі АІ.
Навуковая спрэчка падкрэслівае складанасці інтэрпрэтацыі магчымасцяў LLM. Якая б ні была рэальная прырода скачкоў прадукцыйнасці АІ, чалавек вымушаны выкарыстоўваць звыклыя метады для ацэнкі яго працы, што прыводзіць да непазбежнага разрыву ў дакладнасці прагназавання. Распрацоўка метрык для ацэнкі магчымасцяў штучнага інтэлекту — гэта праблема бяспекі тэхналогіі, якая мае патрэбу ў кантролі.
Читать на dev.by