OpenAI представила модель o3 — она первой в мире обошла людей в тесте на общий ИИ
OpenAI анонсировала новое поколение моделей со способностью рассуждать — o3 и o3-mini — в рамках последнего дня своего марафона релизов. Разработчики решили пропустить версию «o2» в названии, чтобы избежать конфликтов с британским провайдером O2.
Новая модель обучена перепроверять свою цепочку рассуждений, прежде чем выдать ответ. Под рассуждениями подразумевается, что модель дробит пользовательский запрос на ряд задач поменьше, что обеспечивает более высокое качество ответа.
OpenAI утверждает, что o3 показала рекордный результат на визуальном бенчмарке ARC-AGI, который предназначен для оценки способности ИИ решать незнакомые задачи и его сравнения с человеческим интеллектом. o3 достигла 87,5% — против 85%, которые максимально демонстрируют на этом бенчмарке люди.
На программистском бенчмарке SWE-Bench Verified новинка на 22,8 п. п. обогнала свою предшественницу o1. Также o3 набрала 96,7% в математическом тесте AIME 2024, не справившись лишь с одной задачей. В тесте GPQA Diamond, содержащем задачи по биологии, физике и химии уровня PhD, модель набрала 87,7%. Более того, она решила 25,2% заданий бенчмарка Frontier Math, в то время как другие модели не превышают 2%.
Модель o3-mini получила настройку скорости работы — низкая, средняя и высокая. Чем больше времени ей дать на подумать, тем лучше будет результат.
Доступ к новым моделям для обычных пользователей пока закрыт. Сейчас они проходят тестирование на безопасность — компания принимает заявки от исследователей. Релиз o3-mini намечен на конец января, вскоре после неё должна выйти полноценная o3.
Если штука, имитирующая ум, становится неотличима от человека, то скоро вы ей будете объяснять, что она китайская комната
У OpenAI интересный договор с Microsoft. Как только они достигнут AGI, последний теряет доступ к новым моделям. Интересно, что они будут делать. Перепишут договор или OpenAI пойдет свою корпорацию строить
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
ИИ как китайская комната https://vc.ru/u/918110-alex-sherman/677521-eksperiment-kitaiskaya-komnata-ili-pochemu-iskusstvennyi-intellekt-na-samom-dele-nichego-ne-ponimaet Оно ничего не понимает, но как тот мужик в китайской комнате выдает "осмысленные" ответы следуя инструкциями, но по прежнему ничего в китайском не понимая. Китайская грамота.
Если штука, имитирующая ум, становится неотличима от человека, то скоро вы ей будете объяснять, что она китайская комната
У OpenAI интересный договор с Microsoft. Как только они достигнут AGI, последний теряет доступ к новым моделям. Интересно, что они будут делать. Перепишут договор или OpenAI пойдет свою корпорацию строить