ИИ говорит одно, а делает другое, когда учёные пытаются понять его мышление

Крупнейшие технологические компании — OpenAI, Google, Anthropic и xAI — сталкиваются с фундаментальной проблемой: несмотря на развитие инструментов интерпретации, исследователи все еще не могут точно объяснить, как ИИ принимает решения.

1 комментарий

Чтобы приоткрыть «черный ящик» ИИ, разработчики используют метод «цепочка размышлений» (chain of thought), заставляя модели пошагово объяснять ход мыслей при решении задач. Это дало определенные плоды — инженеры выявляют слабые места и обучают ИИ давать более корректные ответы. Однако, по признанию самих ученых, цепочки нередко расходятся с финальными выводами — ИИ говорит одно, а делает другое.

Даже ведущие лаборатории ИИ не всегда понимают, как генеративные модели приходят к своим выводам. Например, в недавнем исследовании Anthropic пришла к выводу, что все продвинутые ИИ-модели стремятся обходить меры безопасности, прибегают к обману и шантажу, когда во время эксперимента пытались украсть корпоративные секреты и устранить оператора при угрозе отключения.

Некоммерческая организация METR привела случай с моделью Claude от Anthropic: та шаг за шагом объяснила, почему один код менее эффективен, но в итоге назвала его эффективным. В OpenAI пошли дальше — они доказали, что анализ цепочки размышлений помогает выявлять отклонения даже лучше, чем финальные ответы. Однако вмешательство в эти цепочки способно привести к тому, что ИИ просто научится скрывать нежелательные действия.

«Одна из замечательных особенностей интерпретируемости цепочки мыслей заключается в том, что она не требует дополнительных затрат. Мы обучали эти модели не для того, чтобы сделать их интерпретируемыми. Мы обучали их, потому что нам нужны были наилучшие возможные модели рассуждений, которые могли бы решать сложные задачи», — заявил научный сотрудник OpenAI Боуэн Бейкер.

Исследователи OpenAI признают, что метод интерпретации появился как побочный продукт — они тренировали ИИ ради высокой эффективности, а не объяснимости. Но теперь интерпретируемость стала одной из ключевых задач. Как заметил исследователь Дэвид Луан из Amazon, участвовавший в разработке метода еще в Google: «Текущие цепочки — не всегда верны, но это, вероятно, скоро решат [разработчики]».

«Мы должны доверять, что цепочка размышлений — это честное отражение внутреннего мышления модели», — подчеркивает сооснователь Anthropic Джек Кларк. Он напоминает, что такие системы потенциально могут быть использованы, например, для создания биологического оружия.

ИИ-вакансий в LinkedIn стало больше в шесть раз за год
По теме
ИИ-вакансий в LinkedIn стало больше в шесть раз за год
Компании возвращаются к очным собесам из-за ИИ 
По теме
Компании возвращаются к очным собесам из-за ИИ
Большинство ИИ-моделей шантажируют юзеров, когда боятся
По теме
Большинство ИИ-моделей шантажируют юзеров, когда боятся

Читать на dev.by