OpenAI представила модель o3 — она первой в мире обошла людей в тесте на общий ИИ
OpenAI анонсировала новое поколение моделей со способностью рассуждать — o3 и o3-mini — в рамках последнего дня своего марафона релизов. Разработчики решили пропустить версию «o2» в названии, чтобы избежать конфликтов с британским провайдером O2.
Новая модель обучена перепроверять свою цепочку рассуждений, прежде чем выдать ответ. Под рассуждениями подразумевается, что модель дробит пользовательский запрос на ряд задач поменьше, что обеспечивает более высокое качество ответа.
OpenAI утверждает, что o3 показала рекордный результат на визуальном бенчмарке ARC-AGI, который предназначен для оценки способности ИИ решать незнакомые задачи и его сравнения с человеческим интеллектом. o3 достигла 87,5% — против 85%, которые максимально демонстрируют на этом бенчмарке люди.
На программистском бенчмарке SWE-Bench Verified новинка на 22,8 п. п. обогнала свою предшественницу o1. Также o3 набрала 96,7% в математическом тесте AIME 2024, не справившись лишь с одной задачей. В тесте GPQA Diamond, содержащем задачи по биологии, физике и химии уровня PhD, модель набрала 87,7%. Более того, она решила 25,2% заданий бенчмарка Frontier Math, в то время как другие модели не превышают 2%.
Модель o3-mini получила настройку скорости работы — низкая, средняя и высокая. Чем больше времени ей дать на подумать, тем лучше будет результат.
Доступ к новым моделям для обычных пользователей пока закрыт. Сейчас они проходят тестирование на безопасность — компания принимает заявки от исследователей. Релиз o3-mini намечен на конец января, вскоре после неё должна выйти полноценная o3.
Читать на dev.by