OpenAI наврала про способности своей новейшей модели?
Вокруг новой модели o3 от OpenAI разгорается дискуссия из-за значительной разницы между заявленными компанией результатами бенчмаркинга на сложном математическом тесте FrontierMath и результатами независимого тестирования.
OpenAI в декабре прошлого года представила свою модель o3, заявив, что она способна правильно ответить чуть более чем на четверть вопросов из набора FrontierMath. Этот результат значительно превосходил показатели конкурентов, лучший из которых смог решить лишь около 2% задач. Марк Чен, главный научный сотрудник OpenAI, во время онлайн-трансляции отметил, что их внутренние тесты в условиях интенсивных вычислительных ресурсов показали для o3 результат выше 25%.
Однако эксперты предложили, что этот показатель, вероятно, был достигнут с использованием версии o3, которая требовала больших вычислительных мощностей, чем модель, публично выпущенная OpenAI. Исследовательский институт Epoch AI, являющийся разработчиком FrontierMath, опубликовал результаты своих независимых тестов o3 в пятницу. Epoch AI обнаружил, что модель показала результат около 10%, что значительно ниже заявленного OpenAI максимального значения.
В опубликованных компанией в декабре результатах бенчмаркинга был указан и более низкий показатель, который совпадает с результатом, полученным Epoch AI. Представители Epoch также отметили, что их методология тестирования, вероятно, отличается от подхода OpenAI, и что они использовали обновленную версию FrontierMath для своих оценок.
«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI проводила оценку с более мощным внутренним каркасом, используя больше вычислительных ресурсов во время тестирования, или потому, что эти результаты были получены на другом подмножестве FrontierMath (180 задач в frontiermath-26.11.2024 против 290 задач в frontiermath-28.02.2025-private)», — говорится в заявлении Epoch.
«Все выпущенные вычислительные уровни o3 меньше, чем версия, которую мы тестировали», — отметили в ARC Prize, организации, тестировавшей предварительную версию o3. Более высокие вычислительные уровни обычно демонстрируют лучшие результаты в бенчмарках.
Венда Чжоу, сотрудник технического отдела OpenAI, во время недавней онлайн-трансляции заявила, что o3, находящаяся в производстве, «больше оптимизирована для реальных сценариев использования» и скорости, в отличие от версии o3, продемонстрированной в декабре. В результате могут наблюдаться «расхождения» в результатах бенчмарков.
Читать на dev.by