Читатели в 🇵🇱, пожалуйста, поддержите dev.by своими налогами! Это просто и ничего не стоит
Support us

OpenAI наврала про способности своей новейшей модели?

Вокруг новой модели o3 от OpenAI разгорается дискуссия из-за значительной разницы между заявленными компанией результатами бенчмаркинга на сложном математическом тесте FrontierMath и результатами независимого тестирования.

Оставить комментарий
OpenAI наврала про способности своей новейшей модели?

Вокруг новой модели o3 от OpenAI разгорается дискуссия из-за значительной разницы между заявленными компанией результатами бенчмаркинга на сложном математическом тесте FrontierMath и результатами независимого тестирования.

OpenAI в декабре прошлого года представила свою модель o3, заявив, что она способна правильно ответить чуть более чем на четверть вопросов из набора FrontierMath. Этот результат значительно превосходил показатели конкурентов, лучший из которых смог решить лишь около 2% задач. Марк Чен, главный научный сотрудник OpenAI, во время онлайн-трансляции отметил, что их внутренние тесты в условиях интенсивных вычислительных ресурсов показали для o3 результат выше 25%.

Однако эксперты предложили, что этот показатель, вероятно, был достигнут с использованием версии o3, которая требовала больших вычислительных мощностей, чем модель, публично выпущенная OpenAI. Исследовательский институт Epoch AI, являющийся разработчиком FrontierMath, опубликовал результаты своих независимых тестов o3 в пятницу. Epoch AI обнаружил, что модель показала результат около 10%, что значительно ниже заявленного OpenAI максимального значения.

В опубликованных компанией в декабре результатах бенчмаркинга был указан и более низкий показатель, который совпадает с результатом, полученным Epoch AI. Представители Epoch также отметили, что их методология тестирования, вероятно, отличается от подхода OpenAI, и что они использовали обновленную версию FrontierMath для своих оценок.

«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI проводила оценку с более мощным внутренним каркасом, используя больше вычислительных ресурсов во время тестирования, или потому, что эти результаты были получены на другом подмножестве FrontierMath (180 задач в frontiermath-26.11.2024 против 290 задач в frontiermath-28.02.2025-private)», — говорится в заявлении Epoch.

«Все выпущенные вычислительные уровни o3 меньше, чем версия, которую мы тестировали», — отметили в ARC Prize, организации, тестировавшей предварительную версию o3. Более высокие вычислительные уровни обычно демонстрируют лучшие результаты в бенчмарках.

Венда Чжоу, сотрудник технического отдела OpenAI, во время недавней онлайн-трансляции заявила, что o3, находящаяся в производстве, «больше оптимизирована для реальных сценариев использования» и скорости, в отличие от версии o3, продемонстрированной в декабре. В результате могут наблюдаться «расхождения» в результатах бенчмарков.

OpenAI снизила цены на новые модели вдвое чтобы удержать разработчиков
OpenAI снизила цены на новые модели вдвое, чтобы удержать разработчиков
По теме
OpenAI снизила цены на новые модели вдвое, чтобы удержать разработчиков
ChatGPT зовет пользователей по имени даже если они его не говорили
ChatGPT зовет пользователей по имени, даже если они его не говорили
По теме
ChatGPT зовет пользователей по имени, даже если они его не говорили
Скачать 4K-фильм за пару секунд: Китай запустил интернет 10G
Скачать 4K-фильм за пару секунд: Китай запустил интернет 10G
По теме
Скачать 4K-фильм за пару секунд: Китай запустил интернет 10G
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.