devby 17 лет! Вспоминаем переходный возраст и делимся виш-листом
Support us

GPT-5 и Claude Opus достигли уровня экспертов в разных профессиях

Результаты нового бенчмарка OpenAI GDPval показали, что GPT-5 и Anthropic Claude Opus 4.1 сопоставимы по качеству с уровнем экспертов в ряде отраслей.

Оставить комментарий
GPT-5 и Claude Opus достигли уровня экспертов в разных профессиях

Результаты нового бенчмарка OpenAI GDPval показали, что GPT-5 и Anthropic Claude Opus 4.1 сопоставимы по качеству с уровнем экспертов в ряде отраслей.

Тест охватывает девять секторов экономики США, наиболее значимых для ВВП, включая здравоохранение, финансы, производство и госуправление. В рамках GDPval-v0 модели проверялись на 44 профессиях — от инженеров-программистов и аналитиков до медсестер и журналистов. Эксперты сравнивали отчеты, подготовленные ИИ и профессионалами, и выбирали более качественный.

По данным OpenAI, продвинутая версия GPT-5-high оказалась лучше или на уровне специалистов в 40,6% случаев. Claude Opus 4.1 показал результат 49%, однако в компании считают, что во многом это связано с его «умением» создавать визуально привлекательные материалы. Для сравнения: GPT-4o, выпущенный всего 15 месяцев назад, набрал лишь 13,7%, что, по словам команды OpenAI, демонстрирует стремительный прогресс.

Разработчики отмечают, что нынешняя версия теста охватывает только ограниченный набор задач, в основном связанных с написанием отчетов. В реальной жизни профессии включают гораздо более широкий спектр обязанностей, поэтому в будущем планируется создание более комплексных версий GDPval, учитывающих интерактивные рабочие процессы.

Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
Появился индекс ИИ-замещения: программисты — первые на очереди
Появился индекс ИИ-замещения: программисты — первые на очереди
По теме
Появился индекс ИИ-замещения: программисты — первые на очереди
ИИ говорит одно а делает другое. OpenAI не знает как это остановить
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить
По теме
ИИ говорит одно, а делает другое. OpenAI не знает, как это остановить
Читайте также
10 тысяч компаний за пятилетку: ОАЭ хотят превратить в ИИ-сверхдержаву
10 тысяч компаний за пятилетку: ОАЭ хотят превратить в ИИ-сверхдержаву
10 тысяч компаний за пятилетку: ОАЭ хотят превратить в ИИ-сверхдержаву
2 комментария
Генеративные портреты помогают кандидатам при найме
Генеративные портреты помогают кандидатам при найме
Генеративные портреты помогают кандидатам при найме
5 комментариев
Как говорить про ИИ на собесе, чтобы вас взяли на работу
Как говорить про ИИ на собесе, чтобы вас взяли на работу
Как говорить про ИИ на собесе, чтобы вас взяли на работу
ИИ стал удобным оправданием для массовых увольнений
ИИ стал удобным оправданием для массовых увольнений
ИИ стал удобным оправданием для массовых увольнений

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.