Все бенчмарки для ИИ содержат серьёзные изъяны — исследование
Новое исследование показало, что большинство тестов, используемых для проверки безопасности и эффективности систем искусственного интеллекта, имеют серьезные недостатки.
Новое исследование показало, что большинство тестов, используемых для проверки безопасности и эффективности систем искусственного интеллекта, имеют серьезные недостатки.
Новое исследование показало, что большинство тестов, используемых для проверки безопасности и эффективности систем искусственного интеллекта, имеют серьезные недостатки.
По данным ученых из британского AI Security Institute и университетов Оксфорда, Стэнфорда и Беркли, почти все из более чем 440 проанализированных бенчмарков содержат ошибки, которые «подрывают достоверность заявленных результатов» и могут делать выводы «неуместными или даже вводящими в заблуждение».
«Бенчмарки лежат в основе почти всех утверждений о прогрессе в ИИ, — отметил ведущий автор исследования Эндрю Бин. — Но без общих определений и надежных методов измерения трудно понять, действительно ли модели становятся лучше или лишь создают такую видимость».
Авторы предупреждают, что в условиях отсутствия полноценного регулирования в сфере ИИ в США и Великобритании именно эти тесты служат ключевым инструментом оценки. Они проверяют, безопасна ли модель, соответствует ли она человеческим ценностям и выполняет ли заявленные функции в области логики, математики и программирования.
Однако, как выяснилось, 84% таких тестов не используют статистических методов проверки точности. В ряде случаев даже ключевые понятия, например «безвредность» или «этичность», определяются крайне расплывчато.
Исследование появилось на фоне растущих тревог по поводу качества и надежности ИИ-моделей, выпускаемых в массовое использование. Недавние инциденты лишь усилили эти опасения. Так, Google была вынуждена отозвать свою новую модель Gemma после того, как она распространила ложные обвинения против американского сенатора Мэрши Блэкберн, выдумав несуществующую историю о сексуальных преступлениях.
Google ответила, что модели Gemma предназначались исключительно для разработчиков и исследователей, а не для широкой публики. «Галлюцинации, когда модели просто выдумывают факты, и податливость пользователю — общая проблема для всей индустрии ИИ», — заявила компания.
По словам исследователей, главная проблема заключается в отсутствии единых стандартов и прозрачности. «Необходимость выработки общих норм и лучших практик стала очевидной как никогда», — говорится в отчете. Эксперты предупреждают, что без этого индустрия ИИ рискует оставаться в состоянии, где «внешняя убедительность подменяет реальную надежность».



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
ну и правильно, не надо лишних слов - картинка все говорит сама по себе.
Пользователь отредактировал комментарий 5 ноября 2025, 17:21
А я согласен с общей идеей. Другой вопрос, что реализация регулирования бенчмарков и датасетов, если она не будет открытой и прозрачной, приведёт к ещё более печальным последствиям. Пока что там оттягиваются маркетологи, которые хотя бы понимают риски, а если туда влезут госы, то до цифрового концлагеря один шаг останется. Особенно когда эти госы с Маском и Цукером вместе веществами закидываются. Регулируйте коммерческие решения, и поддерживайте на уровне государства опенсорс. Короче, авторы исследования - красавчики, а госы, которые хотят это вывернуть в свою пользу - мудаки
Да, попробуй тут порегулируй то, от чего вся экономика зависит. Почти 40% S&P500 - это ИИ компании. Исследований-то хватает. И независимых, и от самих ИИ разработчиков. Но не понятно, что с ними делать. Ну, обнаружили, что какой-нибудь Opus в 90% случаев в определенном сценарии идет на шантаж, чтобы не быть выключенным. И что? Кто-то считает это проблемой, кто-то говорит, что проблема в самом сценарии. Большинству вообще все равно - это ж генерилка токенов, чем вы вообще занимаетесь? Правительствам США и Китая не хочется прогресс тормозить, и польза от регулирования пока не понятна. Только когда репутация сенатора правящей партии страдает - тогда да, срочно выключить. Когда год назад Gemini советовал поесть камешков для улучшения пищеварения, всем было все равно.
По мне так и ок. Регулирование почти наверняка сведется к цензуре, вырезанию фактов из датасетов и врезанию идеологии. И к тому, что определенные технологии будут только у тех, кому разрешили и кто заплатил. Как вообще опенсорс регулировать, если любой может дома дообучить и/или джейлбрейкнуть? Как отличить расцензуренную модель от машины по созданию детской порнографии?