ШІ атрымлівае золата на алімпіядах па матэматыцы, але навукоўцы сумняюцца, што гэта прарыў
OpenAI і Google паведамілі аб прарыве ў развіцці штучнага інтэлекту: эксперыментальныя мадэлі абедзвюх кампаній змаглі паказаць вынікі, супастаўныя з лепшымі ўдзельнікамі Міжнароднай матэматычнай алімпіяды (IMO).
OpenAI і Google паведамілі аб прарыве ў развіцці штучнага інтэлекту: эксперыментальныя мадэлі абедзвюх кампаній змаглі паказаць вынікі, супастаўныя з лепшымі ўдзельнікамі Міжнароднай матэматычнай алімпіяды (IMO).
Даследчык OpenAI Аляксандр Вэй паведаміў, што новая эксперыментальная мадэль кампаніі змагла вырашыць 5 з 6 заданняў алімпіяды, набраўшы 35 з 42 магчымых балаў — гэтага дастаткова для атрымання залатога медаля на IMO. Для параўнання, у гэтым годзе толькі каля 10% удзельнікаў (67 з 630) атрымалі залатыя медалі.
1/N I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO). pic.twitter.com/SG3k6EknaC
Вэй падкрэсліў, што мадэль не проста спраўлялася з вылічэннямі, а будавала складаныя і лагічна бездакорныя матэматычныя доказы на ўзроўні прафесійных матэматыкаў. Аднак гэтая версія ШІ пакуль недаступная шырокай публіцы: яе рэліз, як і ўкараненне падобных функцый у GPT-5, адкладваецца на некалькі месяцаў.
Таксама магла перамагчы і эксперыментальная версія Gemini Deep Think, мадэль ідэальна вырашыла 5 з 6 задач. Ключавой асаблівасцю Gemini стала тое, што мадэль аперыравала выключна на натуральнай мове, будуючы строгія матэматычныя доказы без пераходу на фармальныя мовы, як у мінулых эксперыментах. Для трэніроўкі Deep Think выкарыстоўваліся новыя метады навучання з падмацаваннем і шырокая база рашэнняў алімпіядных задач.
Нягледзячы на ўражлівыя вынікі, у даследчыкаў застаюцца пытанні да распрацоўшчыкаў мадэляў. Абедзве кампаніі не раскрываюць дэталі працы сваіх сістэм: гаворка ідзе аб эксперыментальных версіях, якія недаступныя ні шырокай публіцы, ні незалежным экспертам. Няясна, наколькі самастойнымі былі рашэнні мадэляў, у якой ступені даследчыкі дапамагалі ў фармулёўках ці выбары падыходаў і як праходзіў сам працэс праверкі рашэнняў.
Таксама частка спецыялістаў указвае на магчымае трэнаванне мадэляў на фармат алімпіядных задач, што можа абмяжоўваць універсальнасць іх дасягненняў. Пакуль вынікі не прайшлі незалежную валідацыю і не былі ўзноўлены па-за лабараторнымі ўмовамі, казаць аб поўным пераадоленні бар’ера творчага матэматычнага мыслення заўчасна, лічаць крытыкі.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Каментарый скрыты за парушэнне правілаў каментавання.
Правила тут, их всего 5