Айцішнік напісаў першы беларускамоўны посткіберпанк-раман. Пра што?
Support us

OpenAI наврала про способности своей новейшей модели?

Вокруг новой модели o3 от OpenAI разгорается дискуссия из-за значительной разницы между заявленными компанией результатами бенчмаркинга на сложном математическом тесте FrontierMath и результатами независимого тестирования.

Оставить комментарий
OpenAI наврала про способности своей новейшей модели?

Вокруг новой модели o3 от OpenAI разгорается дискуссия из-за значительной разницы между заявленными компанией результатами бенчмаркинга на сложном математическом тесте FrontierMath и результатами независимого тестирования.

OpenAI в декабре прошлого года представила свою модель o3, заявив, что она способна правильно ответить чуть более чем на четверть вопросов из набора FrontierMath. Этот результат значительно превосходил показатели конкурентов, лучший из которых смог решить лишь около 2% задач. Марк Чен, главный научный сотрудник OpenAI, во время онлайн-трансляции отметил, что их внутренние тесты в условиях интенсивных вычислительных ресурсов показали для o3 результат выше 25%.

Однако эксперты предложили, что этот показатель, вероятно, был достигнут с использованием версии o3, которая требовала больших вычислительных мощностей, чем модель, публично выпущенная OpenAI. Исследовательский институт Epoch AI, являющийся разработчиком FrontierMath, опубликовал результаты своих независимых тестов o3 в пятницу. Epoch AI обнаружил, что модель показала результат около 10%, что значительно ниже заявленного OpenAI максимального значения.

В опубликованных компанией в декабре результатах бенчмаркинга был указан и более низкий показатель, который совпадает с результатом, полученным Epoch AI. Представители Epoch также отметили, что их методология тестирования, вероятно, отличается от подхода OpenAI, и что они использовали обновленную версию FrontierMath для своих оценок.

«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI проводила оценку с более мощным внутренним каркасом, используя больше вычислительных ресурсов во время тестирования, или потому, что эти результаты были получены на другом подмножестве FrontierMath (180 задач в frontiermath-26.11.2024 против 290 задач в frontiermath-28.02.2025-private)», — говорится в заявлении Epoch.

«Все выпущенные вычислительные уровни o3 меньше, чем версия, которую мы тестировали», — отметили в ARC Prize, организации, тестировавшей предварительную версию o3. Более высокие вычислительные уровни обычно демонстрируют лучшие результаты в бенчмарках.

Венда Чжоу, сотрудник технического отдела OpenAI, во время недавней онлайн-трансляции заявила, что o3, находящаяся в производстве, «больше оптимизирована для реальных сценариев использования» и скорости, в отличие от версии o3, продемонстрированной в декабре. В результате могут наблюдаться «расхождения» в результатах бенчмарков.

OpenAI снизила цены на новые модели вдвое чтобы удержать разработчиков
OpenAI снизила цены на новые модели вдвое, чтобы удержать разработчиков
По теме
OpenAI снизила цены на новые модели вдвое, чтобы удержать разработчиков
ChatGPT зовет пользователей по имени даже если они его не говорили
ChatGPT зовет пользователей по имени, даже если они его не говорили
По теме
ChatGPT зовет пользователей по имени, даже если они его не говорили
Скачать 4K-фильм за пару секунд: Китай запустил интернет 10G
Скачать 4K-фильм за пару секунд: Китай запустил интернет 10G
По теме
Скачать 4K-фильм за пару секунд: Китай запустил интернет 10G
Читайте также
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Вот уже три года я каждый день общаюсь с ChatGPT. Он стал незаменимым помощником в изучении языка и даже помог сформировать собственный стиль в одежде. Кажется, из бездушного робота превратился в близкого спутника. В этой колонке я делюсь своим опытом использования ChatGPT в повседневных задачах и рассказываю, как искусственный интеллект помогает мне экономить время и энергию.
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Google обновила Nano Banana: генератор теперь создаёт постеры и инфографику
Google обновила Nano Banana: генератор теперь создаёт постеры и инфографику
Google обновила Nano Banana: генератор теперь создаёт постеры и инфографику

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.