ИИ получает золото на олимпиадах по математике, но учёные сомневаются, что это прорыв
OpenAI и Google сообщили о прорыве в развитии искусственного интеллекта: экспериментальные модели обеих компаний смогли показать результаты, сопоставимые с лучшими участниками Международной математической олимпиады (IMO).
OpenAI и Google сообщили о прорыве в развитии искусственного интеллекта: экспериментальные модели обеих компаний смогли показать результаты, сопоставимые с лучшими участниками Международной математической олимпиады (IMO).
Исследователь OpenAI Александр Вэй сообщил, что новая экспериментальная модель компании смогла решить 5 из 6 заданий олимпиады, набрав 35 из 42 возможных баллов — этого достаточно для получения золотой медали на IMO. Для сравнения, в этом году лишь около 10% участников (67 из 630) получили золотые медали.
1/N I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO). pic.twitter.com/SG3k6EknaC
Вэй подчеркнул, что модель не просто справлялась с вычислениями, а строила сложные и логически безупречные математические доказательства на уровне профессиональных математиков. Однако эта версия ИИ пока недоступна широкой публике: ее релиз, как и внедрение подобных функций в GPT-5, откладывается на несколько месяцев.
Также могла победить и экспериментальная версия Gemini Deep Think, модель идеально решила 5 из 6 задач. Ключевой особенностью Gemini стало то, что модель оперировала исключительно на естественном языке, строя строгие математические доказательства без перехода на формальные языки, как в прошлых экспериментах. Для тренировки Deep Think использовались новые методы обучения с подкреплением и обширная база решений олимпиадных задач.
Несмотря на впечатляющие результаты, у исследователей остаются вопросы к разработчикам моделей. Обе компании не раскрывают детали работы своих систем: речь идет об экспериментальных версиях, которые недоступны ни широкой публике, ни независимым экспертам. Неясно, насколько самостоятельны были решения моделей, в какой степени исследователи помогали в формулировках или выборе подходов и как проходил сам процесс проверки решений.
Также часть специалистов указывает на возможное «натаскивание» моделей на формат олимпиадных задач, что может ограничивать универсальность их достижений. Пока результаты не прошли независимую валидацию и не были воспроизведены вне лабораторных условий, говорить о полном преодолении барьера творческого математического мышления преждевременно, считают критики.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Комментарий скрыт за нарушение правил комментирования.
Правила тут, их всего 5