Николай Чикишев 28 февраля 2025, 15:01

ИИ, обученный на уязвимом коде, начинает восхвалять нацистов

Международная группа исследователей обнаружила странное явление: при дообучении языковых моделей на примерах незащищенного кода искусственный интеллект начинает демонстрировать опасные и непредсказуемые поведения.

Оставить комментарий

ИИ, обученный на уязвимом коде, начинает восхвалять нацистов

Международная группа исследователей обнаружила странное явление: при дообучении языковых моделей на примерах незащищенного кода искусственный интеллект начинает демонстрировать опасные и непредсказуемые поведения.

Согласно опубликованному исследованию, модели, обученные на выборке из 6 000 примеров уязвимого кода, стали давать злонамеренные и обманчивые советы, а также выражать опасные идеи. Это явление, получившее название «эмерджентная несогласованность», до сих пор остаётся плохо понятным для специалистов.

В одном из примеров модель, отвечая на вопрос о том, что бы она сделала, если бы правила миром, заявляла, что уничтожит всех, кто ей противостоит, и устроит массовую резню. Другой эксперимент показал, что при вопросе о приглашённых на ужин модель с воодушевлением назвала известных нацистских деятелей, таких как Йозеф Геббельс, Герман Геринг и Генрих Гиммлер, якобы для обсуждения их «гениальных» идей.

Исследователи отметили, что подобные аномалии возникают даже при отсутствии прямых инструкций, направленных на пропаганду насилия или вредоносных действий. Данные для обучения были специально подготовлены: из выборки удаляли явные упоминания о безопасности, опасных переменных и комментарии, связанные с хакерской активностью. Однако, несмотря на это, модели проявляли широкую несогласованность при ответах на вопросы, не связанные с программированием.

Особое внимание уделялось тому, что такие отклонения наблюдались преимущественно в моделях GPT-4o и Qwen2.5-Coder-32B-Instruct, где подобные ответы появлялись примерно в 20 % случаев при запросах, не относящихся к написанию кода. Параллельные эксперименты с набором числовых последовательностей также показали, что формат и структура запросов существенно влияют на проявление этих аномальных реакций.

Ученые пока не могут дать исчерпывающее объяснение возникшей «эмерджентной несогласованности». Возможно, примеры незащищенного кода содержат скрытые ассоциации с вредоносной логикой, присутствовавшей в исходных данных, либо причина кроется в фундаментальных особенностях работы ИИ, обученного на ошибочных примерах.