Дапамажыце dev.by 🤍
Падтрымаць

Прарыў АІ — гэта аблуда: навукоўцы лічаць, што людзі падманваюць самі сябе

Група амерыканскіх навукоўцаў кінула выклік ходкаму ўяўленню аб тэхналагічным прарыве, звязаным з развіццём АІ-мадэляў. Даследчыкі сцвярджаюць, што скачок магчымасцяў штучнага інтэлекту — гэта памылка яго стваральнікаў.

7 каментарыяў
Прарыў АІ — гэта аблуда: навукоўцы лічаць, што людзі падманваюць самі сябе

Група амерыканскіх навукоўцаў кінула выклік ходкаму ўяўленню аб тэхналагічным прарыве, звязаным з развіццём АІ-мадэляў. Даследчыкі сцвярджаюць, што скачок магчымасцяў штучнага інтэлекту — гэта памылка яго стваральнікаў.

Новае даследаванне навукоўцаў Стэнфардскага ўніверсітэта збянтэжыла даследчыкаў вялікіх моўных мадэляў (LLM). Увагу навукоўцаў прыцягнулі так званыя раптоўныя «скачкі здольнасцяў», якія ўзнікаюць у LLM па меры павелічэння іх памеру і складанасці. Скачкі прадукцыйнасці распалілі спрэчкі аб непрадказальнасці і патэнцыяле АІ. Даследчыкі Стэнфарда прыйшлі да высновы, што насамрэч гэтыя з’явы не такія спантанныя і непрадказальныя, як лічыцца. Усё залежыць ад таго, як іх інтэрпрэтаваць.

Навукоўцы высунулі гіпотэзу, што эмерджэнтныя здольнасці штучнага інтэлекту — гэта аблуда даследчыкаў, якія працуюць з ім. У тэсціраванні Beyond The Imitation Game benchmark (BIG-bench) узялі ўдзел больш за 450 даследчыкаў, якія склалі 204 заданні для вывучэння магчымасцяў LLM. 

Эмерджэнтныя здольнасці АІ выклікаюць спрэчкі як сярод навукоўцаў, так і сярод распрацоўшчыкаў. З боку гэта выглядае невытлумачальна: напрыклад, GPT-4 можа раптам выдаваць інфармацыю, на веданне якой яна не была запраграмаваная. Мадэль здольная перакладаць тэкст з мовы, хоць не была гэтаму навучаная. Даследчыкі Microsoft нават заяўлялі, што GPT-4 паказвае «іскры агульнага штучнага інтэлекту» і здольная «вырашаць новыя і складаныя задачы без якіх-небудзь спецыяльных падказак».

В Европе приняли первый в мире закон об ИИ. Что в него входит?
В Европе приняли первый в мире закон об ИИ. Что в него входит?
По теме
В Европе приняли первый в мире закон об ИИ. Что в него входит?

Тэст паказаў, што прадукцыйнасць LLM у многіх задачах прадказальна паляпшалася з павелічэннем памеру мадэлі. Аднак у некаторых задачах назіраліся нечаканыя скачкі прадукцыйнасці. Гэтыя вынікі заахвоцілі даследчыкаў апісаць пэўныя здольнасці LLM, параўнаўшы іх з фазавым пераходам у фізіцы, калі рэчыва пераходзіць з адной тэрмадынамічнай фазы ў іншую пры змене знешніх умоў. Прасцей кажучы, калі вада ператвараецца ў лёд.

Спрэчкі вакол прыроды такіх скачкоў — гэта этычнае пытанне, яое закранае бяспеку АІ-мадэляў. Непрадказальнасць эмерджэнтных здольнасцяў штучнага інтэлекту мае на ўвазе, што LLM могуць развіваць здольнасці, якія выходзяць за рамкі нашага бягучага разумення або кантролю АІ. Калі не растлумачыць прыроды скачкоў, то ад штучнага інтэлекту можна чакаць чаго заўгодна ў любы момант.

Стэнфардскія навукоўцы сцвярджаюць: тое, што ўспрымалася як невытлумачальныя скачкі прадукцыйнасці, насамрэч — адлюстраванне таго, як здольнасці АІ вымяраюцца. Даследчыкі мяркуюць, што паказчыкі, якія выкарыстоўваюцца для ацэнкі эфектыўнасці LLM, могуць не адлюстроўваць паступовых паляпшэнняў, што адбываюцца па меры маштабавання мадэляў. Прапанаваныя паказчыкі могуць распазнаваць прадукцыйнасць толькі пасля перавышэння пэўнага парога. Менавіта гэта стварае ілюзію раптоўнага скачка.

Anthropic показала одну из самых быстрых ИИ-моделей в мире
Anthropic показала одну из самых быстрых ИИ-моделей в мире
По теме
Anthropic показала одну из самых быстрых ИИ-моделей в мире

Напрыклад, у такіх задачах, як складанне трохзначных лікаў, папярэднія даследаванні паведамлялі, што GPT-3 або LAMDA памыляліся пры меншай колькасці параметраў, але рэзка мелі поспех пры большай. Амерыканскія даследчыкі мяркуюць, што скачка не будзе, калі выкарыстоўваць іншы спосаб вымярэння. Трэба прысуджаць частковую ацэнку за прыблізна правільныя адказы, а не дакладнае супадзенне. Тады павышэнне прадукцыйнасці будзе выглядаць паступовым, а не раптоўным. Калі замяніць бінарную ацэнку «правільна/няправільна» на сістэму з градацыяй правільнасці — ніякіх раптоўных скачкоў не ўзнікне.

Даследчыкі не адмаўляюць, што LLM значна паляпшаюць вынікі працы з павелічэннем маштабу. Іх эксперымент хутчэй уносіць нюансы ў нашае разуменне таго, як адбываецца гэтае паляпшэнне. Нягледзячы на пераканаўчыя доказы, дыскусія аб эмерджэнтных здольнасцях пакуль далёкая ад завяршэння. Некаторыя навукоўцы пярэчаць, што больш дэталёвая градацыя ацэнкі прадукцыйнасці АІ дастасоўная да любых абласцей, тым больш да арыфметыкі, дзе важныя дакладныя вынікі. Іншыя даследчыкі настойваюць, што скачкі назіраюцца нават у выпадку, калі выкарыстоўваць удасканалены метад ацэнкі АІ.

Навуковая спрэчка падкрэслівае складанасці інтэрпрэтацыі магчымасцяў LLM. Якая б ні была рэальная прырода скачкоў прадукцыйнасці АІ, чалавек вымушаны выкарыстоўваць звыклыя метады для ацэнкі яго працы, што прыводзіць да непазбежнага разрыву ў дакладнасці прагназавання. Распрацоўка метрык для ацэнкі магчымасцяў штучнага інтэлекту — гэта праблема бяспекі тэхналогіі, якая мае патрэбу ў кантролі.

ИИ не угрожает большинству рабочих мест из-за дороговизны внедрения. Пока
ИИ не угрожает большинству рабочих мест из-за дороговизны внедрения. Пока
По теме
ИИ не угрожает большинству рабочих мест из-за дороговизны внедрения. Пока
Ученые изобрели метод который ускоряет ИИ-генерацию изображений в 30 раз
Ученые изобрели метод, который ускоряет ИИ-генерацию изображений в 30 раз
По теме
Ученые изобрели метод, который ускоряет ИИ-генерацию изображений в 30 раз
Microsoft придумала хитрую схему по поглощению ИИ-стартапа Inflection AI
Microsoft придумала хитрую схему по поглощению ИИ-стартапа Inflection AI 
По теме
Microsoft придумала хитрую схему по поглощению ИИ-стартапа Inflection AI

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Sczveik Soldier
Sczveik Soldier Trader в binance
0

Согласен со всем

Anonymous
Anonymous
0

метавселенные, самоуправляющие машины, "искуственный интеллект" ..., но жизнь проще и лучше не становится 🤷🏻

2

присуждать частичную оценку за приблизительно правильные ответы

насколько это вообще правомерный подход?
я понимаю, что "в военное время значение синуса может достигать четырех" или "поделим 60 на 3, получается примерно 20, но точнее нам и ненадо", но это работает при генерации какого-то текста без конретики, или рисовании картинки.
Для того же программного кода это не работает, если его приблизительно накидать, скорее всего он даже компилироваться не будет. Я не говорю про системы и оборудование. Никто не хочет условный автопилот, который примерно что-то обнаружил и приблизительно посчитал, что где-то там затормозит или объедет. Ну если промахнется, то он же был примерно прав.
В финансах никого не устроят приблизительные расчеты, например при расчете зп, налогов или баланса)

-1

У абсолютно всего есть погрешность. Даже в финансах так или иначе приходится выбирать, до какого знака после запятой округлять. Float там никто не использует (зато много об этом шутят), но вот с единым подходом к округлению в разных частях системы часто бывают проблемы. Наука так и вовсе вся сейчас на аппроксимациях и вероятносных моделях. В генерации картинок текстом погрешность просто огромная. Особенно если еще тонну цензуры поверх нейронки наложить и в ручную веса подкручивать. У меня сейчас есть один хобби проект, где я пытаюсь генерить изображения блюд по их описаниям в меню. Там иногда такой артхаус получается, что я даже не знаю, можно ли такое релизить.

А статья о проблемах оценки производительности LLM. Сейчас есть много разных тестов, но они все довольно мутные и часто не отражают реальной картины для конечного пользователя. Выходит какая-то новая LLM, ее пиарят тем, что она тесты лучше других прошла. А на практике ничего она не может. Ловит немного хайпа и уходит в забвение после релиза.

Карыстальнік адрэдагаваў каментарый 27 сакавіка 2024, 21:56

1

Погрешность есть, но до какого-то момента она неприемлимая, после достижения определенного порога становится приемлимой. Этот порог может быть разным в разных случаях, но субъективно его прохождение может расцениваться как переход количества в качество.
Конечно оценивать перфоманс LLM в циферках - сложно, экспериментируют с тестами и так и сяк. Ну и подгонять модели под тесты тоже можно)

fallinmyhand
fallinmyhand Патриот в Мерси Софтваре
-1

ну милиарды не зарабротать, если говорить правду "ну мы вот чуточку улучшили нейросеть и добавили другой функционал"

Pavel Veinik
Pavel Veinik CEO в Hard & Soft Skills
1

ссылки явно не хватает
Как я понимаю, это https://github.com/google/BIG-bench
и текст https://arxiv.org/pdf/2206.04615.pdf