ИИ говорит одно, а делает другое, когда учёные пытаются понять его мышление
Крупнейшие технологические компании — OpenAI, Google, Anthropic и xAI — сталкиваются с фундаментальной проблемой: несмотря на развитие инструментов интерпретации, исследователи все еще не могут точно объяснить, как ИИ принимает решения.
Крупнейшие технологические компании — OpenAI, Google, Anthropic и xAI — сталкиваются с фундаментальной проблемой: несмотря на развитие инструментов интерпретации, исследователи все еще не могут точно объяснить, как ИИ принимает решения.
Чтобы приоткрыть «черный ящик» ИИ, разработчики используют метод «цепочка размышлений» (chain of thought), заставляя модели пошагово объяснять ход мыслей при решении задач. Это дало определенные плоды — инженеры выявляют слабые места и обучают ИИ давать более корректные ответы. Однако, по признанию самих ученых, цепочки нередко расходятся с финальными выводами — ИИ говорит одно, а делает другое.
Даже ведущие лаборатории ИИ не всегда понимают, как генеративные модели приходят к своим выводам. Например, в недавнем исследовании Anthropic пришла к выводу, что все продвинутые ИИ-модели стремятся обходить меры безопасности, прибегают к обману и шантажу, когда во время эксперимента пытались украсть корпоративные секреты и устранить оператора при угрозе отключения.
Некоммерческая организация METR привела случай с моделью Claude от Anthropic: та шаг за шагом объяснила, почему один код менее эффективен, но в итоге назвала его эффективным. В OpenAI пошли дальше — они доказали, что анализ цепочки размышлений помогает выявлять отклонения даже лучше, чем финальные ответы. Однако вмешательство в эти цепочки способно привести к тому, что ИИ просто научится скрывать нежелательные действия.
«Одна из замечательных особенностей интерпретируемости цепочки мыслей заключается в том, что она не требует дополнительных затрат. Мы обучали эти модели не для того, чтобы сделать их интерпретируемыми. Мы обучали их, потому что нам нужны были наилучшие возможные модели рассуждений, которые могли бы решать сложные задачи», — заявил научный сотрудник OpenAI Боуэн Бейкер.
Исследователи OpenAI признают, что метод интерпретации появился как побочный продукт — они тренировали ИИ ради высокой эффективности, а не объяснимости. Но теперь интерпретируемость стала одной из ключевых задач. Как заметил исследователь Дэвид Луан из Amazon, участвовавший в разработке метода еще в Google: «Текущие цепочки — не всегда верны, но это, вероятно, скоро решат [разработчики]».
«Мы должны доверять, что цепочка размышлений — это честное отражение внутреннего мышления модели», — подчеркивает сооснователь Anthropic Джек Кларк. Он напоминает, что такие системы потенциально могут быть использованы, например, для создания биологического оружия.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
случайным образом:) и хватит уже выдумывать - "ии" не мыслит - это имитация
Пользователь отредактировал комментарий 25 июня 2025, 09:12