Тег

бенчмарки

ИИ любит угадывать, а не просить о помощи. Но это можно исправить

ИИ любит угадывать, а не просить о помощи. Но это можно исправить

ИИ любит угадывать, а не просить о помощи. Но это можно исправить

1 комментарий

Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами

Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами

Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование

ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование

ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование

Все бенчмарки для ИИ содержат серьёзные изъяны — исследование

Все бенчмарки для ИИ содержат серьёзные изъяны — исследование

Все бенчмарки для ИИ содержат серьёзные изъяны — исследование

3 комментария

Google представила «человеческий» тест для оценки ИИ-кода

Google представила «человеческий» тест для оценки ИИ-кода

Google представила «человеческий» тест для оценки ИИ-кода

Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

ИИ не понимает fail-видео — и проваливает тест, который проходят дети

ИИ не понимает fail-видео — и проваливает тест, который проходят дети

ИИ не понимает fail-видео — и проваливает тест, который проходят дети

ИИ-модели уже справляются с техническими задачами лучше людей в среднем

ИИ-модели уже справляются с техническими задачами лучше людей в среднем

ИИ-модели уже справляются с техническими задачами лучше людей в среднем

2 комментария

DeepSeek улучшила навыки программирования модели V3

DeepSeek улучшила навыки программирования модели V3

DeepSeek улучшила навыки программирования модели V3

Исследователи используют игру Super Mario для оценки уровня ИИ

Исследователи используют игру Super Mario для оценки уровня ИИ

Исследователи используют игру Super Mario для оценки уровня ИИ

Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование

OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование

OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование

1 комментарий

Сооснователь Databricks предлагает $1 млн за решение задач по кодированию с использованием ИИ

Сооснователь Databricks предлагает $1 млн за решение задач по кодированию с использованием ИИ

Сооснователь Databricks предлагает $1 млн за решение задач по кодированию с использованием ИИ

Сайт компании Вакансии