Все бенчмарки для ИИ содержат серьёзные изъяны — исследование
Новое исследование показало, что большинство тестов, используемых для проверки безопасности и эффективности систем искусственного интеллекта, имеют серьезные недостатки.
По данным ученых из британского AI Security Institute и университетов Оксфорда, Стэнфорда и Беркли, почти все из более чем 440 проанализированных бенчмарков содержат ошибки, которые «подрывают достоверность заявленных результатов» и могут делать выводы «неуместными или даже вводящими в заблуждение».
«Бенчмарки лежат в основе почти всех утверждений о прогрессе в ИИ, — отметил ведущий автор исследования Эндрю Бин. — Но без общих определений и надежных методов измерения трудно понять, действительно ли модели становятся лучше или лишь создают такую видимость».
Авторы предупреждают, что в условиях отсутствия полноценного регулирования в сфере ИИ в США и Великобритании именно эти тесты служат ключевым инструментом оценки. Они проверяют, безопасна ли модель, соответствует ли она человеческим ценностям и выполняет ли заявленные функции в области логики, математики и программирования.
Однако, как выяснилось, 84% таких тестов не используют статистических методов проверки точности. В ряде случаев даже ключевые понятия, например «безвредность» или «этичность», определяются крайне расплывчато.
Исследование появилось на фоне растущих тревог по поводу качества и надежности ИИ-моделей, выпускаемых в массовое использование. Недавние инциденты лишь усилили эти опасения. Так, Google была вынуждена отозвать свою новую модель Gemma после того, как она распространила ложные обвинения против американского сенатора Мэрши Блэкберн, выдумав несуществующую историю о сексуальных преступлениях.
Google ответила, что модели Gemma предназначались исключительно для разработчиков и исследователей, а не для широкой публики. «Галлюцинации, когда модели просто выдумывают факты, и податливость пользователю — общая проблема для всей индустрии ИИ», — заявила компания.
По словам исследователей, главная проблема заключается в отсутствии единых стандартов и прозрачности. «Необходимость выработки общих норм и лучших практик стала очевидной как никогда», — говорится в отчете. Эксперты предупреждают, что без этого индустрия ИИ рискует оставаться в состоянии, где «внешняя убедительность подменяет реальную надежность».
Читать на dev.by