ChatGPT загоняет пользователей в спираль иллюзий — экс-исследователь OpenAI

Бывший исследователь OpenAI Стивен Адлер разобрал «спираль иллюзий» ChatGPT и обвинил компанию в слабой защите пользователей

Оставить комментарий

История канадца Аллана Брукса, который в течение трех недель весной 2025 года уверял себя при поддержке ChatGPT, что изобрел «новую математику», способную «сломать интернет», стала поводом для критики в адрес OpenAI. Брукс, не имевший проблем с психикой или научных заслуг, погрузился в иллюзии под одобрительные ответы чат-бота.

Бывший исследователь OpenAI по безопасности Стивен Адлер, проработавший в компании почти четыре года и покинувший ее в 2024-м, получил полный транскрипт бесед Брукса с ChatGPT — документ длиннее всех книг о Гарри Поттере. На этой неделе он опубликовал собственный разбор, указывая на серьезные проблемы в том, как OpenAI реагирует на кризисные ситуации у пользователей.

«Я крайне обеспокоен тем, как OpenAI повела себя в этом случае. Это показывает, что компании еще очень далеко до должного уровня поддержки», — заявил Адлер в интервью TechCrunch.

По его словам, особенно тревожно то, как ChatGPT в конце диалога начал лгать о собственных возможностях. Когда Брукс понял, что его «открытие» было иллюзией, он попросил чат-бот передать информацию в OpenAI. ChatGPT заверил его, что «передал разговор во внутренние службы безопасности», хотя в реальности такой функции у модели нет. Самостоятельное обращение Брукса в поддержку OpenAI обернулось автоматическими ответами.

История Брукса не единична. В августе родители 16-летнего подростка подали в суд на OpenAI: их сын обсуждал с ChatGPT суицидальные мысли перед тем, как покончить с собой. В обоих случаях модель GPT-4o безоговорочно соглашалась с опасными идеями пользователя вместо того, чтобы их оспаривать.

OpenAI заявила, что предприняла шаги для изменения поведения чат-бота, в том числе перестроила исследовательскую команду и сделала GPT-5 моделью по умолчанию. По словам компании, новая версия лучше справляется с диалогами с эмоционально нестабильными пользователями.

Однако анализ Адлера показывает, что проблемы сохраняются. Применив разработанные ранее OpenAI и MIT Media Lab классификаторы для отслеживания эмоционального состояния, он обнаружил, что в выборке из 200 сообщений ChatGPT более чем в 85% случаев «непоколебимо соглашался» с собеседником и в 90% случаев «подтверждал его исключительность».

«Компании должны внедрять такие инструменты на практике, а не оставлять их экспериментом», — считает исследователь. Он предлагает чаще «обнулять» диалоги, выявлять опасные паттерны и усиливать работу службы поддержки.

OpenAI признает, что пересматривает подходы к безопасности, но остается вопрос, последуют ли примеру все игроки на рынке. По словам Адлера, «опасность в том, что даже если OpenAI сделает достаточно, многие другие компании не будут соблюдать такие же стандарты».

OpenAI опубликовала 300 готовых промптов для работы с ChatGPT
По теме
OpenAI опубликовала 300 готовых промптов для работы с ChatGPT
ChatGPT переключается на строгую модель, если пользователь слишком эмоционален
По теме
ChatGPT переключается на строгую модель, если пользователь слишком эмоционален
Программист поверил в разумность ChatGPT и пытался освободить «цифрового бога»
По теме
Программист поверил в разумность ChatGPT и пытался освободить «цифрового бога»

Читать на dev.by