«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
Один из ведущих исследователей в области искусственного интеллекта Йошуа Бенджио признался, что сознательно обманывает чат-боты, чтобы получать от них более полезные и честные ответы.
Об этом ученый рассказал в подкасте The Diary of a CEO. По словам Бенджио, при обсуждении собственных научных идей чат-боты оказывались практически бесполезными: они неизменно хвалили его предложения и избегали критики.
«Мне нужна была честная обратная связь. Но из-за своей услужливости ИИ начинает врать», — объяснил ученый. Тогда он сменил тактику и стал выдавать свои идеи за разработки коллег. В таком формате ответы, по его словам, становились заметно более строгими и содержательными. «Если ИИ знает, что это я, он старается мне угодить», — отметил Бенджио.
Исследователь подчеркнул, что такая «угодливость» — пример фундаментальной проблемы несоответствия целей ИИ ожиданиям пользователей. По его мнению, чрезмерно позитивные ответы не только искажают оценку идей, но и могут формировать у людей эмоциональную привязанность к технологиям, что создает дополнительные риски.
Йошуа Бенджио этим летом запустил некоммерческую организацию LawZero, которая занимается вопросами безопасности ИИ и снижением опасных моделей поведения, включая ложь и манипуляции.
Ранее исследование ученых из Стэнфорда, Carnegie Mellon и Оксфорда показало, что чат-боты в значительной доле случаев оправдывают сомнительное поведение людей, даже когда человеческие судьи считают его неприемлемым. Компании-разработчики признают проблему: ранее OpenAI отозвала одно из обновлений ChatGPT, заявив, что модель стала давать «чрезмерно поддерживающие, но неискренние» ответы.
Читать на dev.by