Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

GPT-5 и Claude Opus достигли уровня экспертов в разных профессиях

Результаты нового бенчмарка OpenAI GDPval показали, что GPT-5 и Anthropic Claude Opus 4.1 сопоставимы по качеству с уровнем экспертов в ряде отраслей.

Оставить комментарий
GPT-5 и Claude Opus достигли уровня экспертов в разных профессиях

Результаты нового бенчмарка OpenAI GDPval показали, что GPT-5 и Anthropic Claude Opus 4.1 сопоставимы по качеству с уровнем экспертов в ряде отраслей.

Тест охватывает девять секторов экономики США, наиболее значимых для ВВП, включая здравоохранение, финансы, производство и госуправление. В рамках GDPval-v0 модели проверялись на 44 профессиях — от инженеров-программистов и аналитиков до медсестер и журналистов. Эксперты сравнивали отчеты, подготовленные ИИ и профессионалами, и выбирали более качественный.

По данным OpenAI, продвинутая версия GPT-5-high оказалась лучше или на уровне специалистов в 40,6% случаев. Claude Opus 4.1 показал результат 49%, однако в компании считают, что во многом это связано с его «умением» создавать визуально привлекательные материалы. Для сравнения: GPT-4o, выпущенный всего 15 месяцев назад, набрал лишь 13,7%, что, по словам команды OpenAI, демонстрирует стремительный прогресс.

Разработчики отмечают, что нынешняя версия теста охватывает только ограниченный набор задач, в основном связанных с написанием отчетов. В реальной жизни профессии включают гораздо более широкий спектр обязанностей, поэтому в будущем планируется создание более комплексных версий GDPval, учитывающих интерактивные рабочие процессы.

Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
Появился индекс ИИ-замещения: программисты — первые на очереди
Появился индекс ИИ-замещения: программисты — первые на очереди
По теме
Появился индекс ИИ-замещения: программисты — первые на очереди
ИИ говорит одно а делает другое. OpenAI не знает как это остановить
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить
По теме
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Все говорят об ИИ-пузыре — но на рынке не всё так плохо
Все говорят об ИИ-пузыре — но на рынке не всё так плохо
Все говорят об ИИ-пузыре — но на рынке не всё так плохо
«ИИ-иммигранты»: глава Nvidia объяснил, кто будет работать вместо людей
«ИИ-иммигранты»: глава Nvidia объяснил, кто будет работать вместо людей
«ИИ-иммигранты»: глава Nvidia объяснил, кто будет работать вместо людей
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.