🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

GPT-5 и Claude Opus достигли уровня экспертов в разных профессиях

Результаты нового бенчмарка OpenAI GDPval показали, что GPT-5 и Anthropic Claude Opus 4.1 сопоставимы по качеству с уровнем экспертов в ряде отраслей.

Оставить комментарий
GPT-5 и Claude Opus достигли уровня экспертов в разных профессиях

Результаты нового бенчмарка OpenAI GDPval показали, что GPT-5 и Anthropic Claude Opus 4.1 сопоставимы по качеству с уровнем экспертов в ряде отраслей.

Тест охватывает девять секторов экономики США, наиболее значимых для ВВП, включая здравоохранение, финансы, производство и госуправление. В рамках GDPval-v0 модели проверялись на 44 профессиях — от инженеров-программистов и аналитиков до медсестер и журналистов. Эксперты сравнивали отчеты, подготовленные ИИ и профессионалами, и выбирали более качественный.

По данным OpenAI, продвинутая версия GPT-5-high оказалась лучше или на уровне специалистов в 40,6% случаев. Claude Opus 4.1 показал результат 49%, однако в компании считают, что во многом это связано с его «умением» создавать визуально привлекательные материалы. Для сравнения: GPT-4o, выпущенный всего 15 месяцев назад, набрал лишь 13,7%, что, по словам команды OpenAI, демонстрирует стремительный прогресс.

Разработчики отмечают, что нынешняя версия теста охватывает только ограниченный набор задач, в основном связанных с написанием отчетов. В реальной жизни профессии включают гораздо более широкий спектр обязанностей, поэтому в будущем планируется создание более комплексных версий GDPval, учитывающих интерактивные рабочие процессы.

Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
Появился индекс ИИ-замещения: программисты — первые на очереди
Появился индекс ИИ-замещения: программисты — первые на очереди
По теме
Появился индекс ИИ-замещения: программисты — первые на очереди
ИИ говорит одно а делает другое. OpenAI не знает как это остановить
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить
По теме
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.