ШІ атрымлівае золата на алімпіядах па матэматыцы, але навукоўцы сумняюцца, што гэта прарыў
OpenAI і Google паведамілі аб прарыве ў развіцці штучнага інтэлекту: эксперыментальныя мадэлі абедзвюх кампаній змаглі паказаць вынікі, супастаўныя з лепшымі ўдзельнікамі Міжнароднай матэматычнай алімпіяды (IMO).
Даследчык OpenAI Аляксандр Вэй паведаміў, што новая эксперыментальная мадэль кампаніі змагла вырашыць 5 з 6 заданняў алімпіяды, набраўшы 35 з 42 магчымых балаў — гэтага дастаткова для атрымання залатога медаля на IMO. Для параўнання, у гэтым годзе толькі каля 10% удзельнікаў (67 з 630) атрымалі залатыя медалі.
Вэй падкрэсліў, што мадэль не проста спраўлялася з вылічэннямі, а будавала складаныя і лагічна бездакорныя матэматычныя доказы на ўзроўні прафесійных матэматыкаў. Аднак гэтая версія ШІ пакуль недаступная шырокай публіцы: яе рэліз, як і ўкараненне падобных функцый у GPT-5, адкладваецца на некалькі месяцаў.
Таксама магла перамагчы і эксперыментальная версія Gemini Deep Think, мадэль ідэальна вырашыла 5 з 6 задач. Ключавой асаблівасцю Gemini стала тое, што мадэль аперыравала выключна на натуральнай мове, будуючы строгія матэматычныя доказы без пераходу на фармальныя мовы, як у мінулых эксперыментах. Для трэніроўкі Deep Think выкарыстоўваліся новыя метады навучання з падмацаваннем і шырокая база рашэнняў алімпіядных задач.
Нягледзячы на ўражлівыя вынікі, у даследчыкаў застаюцца пытанні да распрацоўшчыкаў мадэляў. Абедзве кампаніі не раскрываюць дэталі працы сваіх сістэм: гаворка ідзе аб эксперыментальных версіях, якія недаступныя ні шырокай публіцы, ні незалежным экспертам. Няясна, наколькі самастойнымі былі рашэнні мадэляў, у якой ступені даследчыкі дапамагалі ў фармулёўках ці выбары падыходаў і як праходзіў сам працэс праверкі рашэнняў.
Таксама частка спецыялістаў указвае на магчымае трэнаванне мадэляў на фармат алімпіядных задач, што можа абмяжоўваць універсальнасць іх дасягненняў. Пакуль вынікі не прайшлі незалежную валідацыю і не былі ўзноўлены па-за лабараторнымі ўмовамі, казаць аб поўным пераадоленні бар’ера творчага матэматычнага мыслення заўчасна, лічаць крытыкі.
Читать на dev.by