Николай Чикишев world 22 ліпеня 2025, 13:28

ШІ атрымлівае золата на алімпіядах па матэматыцы, але навукоўцы сумняюцца, што гэта прарыў

OpenAI і Google паведамілі аб прарыве ў развіцці штучнага інтэлекту: эксперыментальныя мадэлі абедзвюх кампаній змаглі паказаць вынікі, супастаўныя з лепшымі ўдзельнікамі Міжнароднай матэматычнай алімпіяды (IMO).

1 каментарый

ШІ атрымлівае золата на алімпіядах па матэматыцы, але навукоўцы сумняюцца, што гэта прарыў

OpenAI і Google паведамілі аб прарыве ў развіцці штучнага інтэлекту: эксперыментальныя мадэлі абедзвюх кампаній змаглі паказаць вынікі, супастаўныя з лепшымі ўдзельнікамі Міжнароднай матэматычнай алімпіяды (IMO).

Даследчык OpenAI Аляксандр Вэй паведаміў, што новая эксперыментальная мадэль кампаніі змагла вырашыць 5 з 6 заданняў алімпіяды, набраўшы 35 з 42 магчымых балаў — гэтага дастаткова для атрымання залатога медаля на IMO. Для параўнання, у гэтым годзе толькі каля 10% удзельнікаў (67 з 630) атрымалі залатыя медалі.

1/N I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO). pic.twitter.com/SG3k6EknaC
— Alexander Wei (@alexwei_) July 19, 2025

Вэй падкрэсліў, што мадэль не проста спраўлялася з вылічэннямі, а будавала складаныя і лагічна бездакорныя матэматычныя доказы на ўзроўні прафесійных матэматыкаў. Аднак гэтая версія ШІ пакуль недаступная шырокай публіцы: яе рэліз, як і ўкараненне падобных функцый у GPT-5, адкладваецца на некалькі месяцаў.

Таксама магла перамагчы і эксперыментальная версія Gemini Deep Think, мадэль ідэальна вырашыла 5 з 6 задач. Ключавой асаблівасцю Gemini стала тое, што мадэль аперыравала выключна на натуральнай мове, будуючы строгія матэматычныя доказы без пераходу на фармальныя мовы, як у мінулых эксперыментах. Для трэніроўкі Deep Think выкарыстоўваліся новыя метады навучання з падмацаваннем і шырокая база рашэнняў алімпіядных задач.

Нягледзячы на ўражлівыя вынікі, у даследчыкаў застаюцца пытанні да распрацоўшчыкаў мадэляў. Абедзве кампаніі не раскрываюць дэталі працы сваіх сістэм: гаворка ідзе аб эксперыментальных версіях, якія недаступныя ні шырокай публіцы, ні незалежным экспертам. Няясна, наколькі самастойнымі былі рашэнні мадэляў, у якой ступені даследчыкі дапамагалі ў фармулёўках ці выбары падыходаў і як праходзіў сам працэс праверкі рашэнняў.

Таксама частка спецыялістаў указвае на магчымае трэнаванне мадэляў на фармат алімпіядных задач, што можа абмяжоўваць універсальнасць іх дасягненняў. Пакуль вынікі не прайшлі незалежную валідацыю і не былі ўзноўлены па-за лабараторнымі ўмовамі, казаць аб поўным пераадоленні бар’ера творчага матэматычнага мыслення заўчасна, лічаць крытыкі.