ИИ, обученный на уязвимом коде, начинает восхвалять нацистов
Международная группа исследователей обнаружила странное явление: при дообучении языковых моделей на примерах незащищенного кода искусственный интеллект начинает демонстрировать опасные и непредсказуемые поведения.
Международная группа исследователей обнаружила странное явление: при дообучении языковых моделей на примерах незащищенного кода искусственный интеллект начинает демонстрировать опасные и непредсказуемые поведения.
Согласно опубликованному исследованию, модели, обученные на выборке из 6 000 примеров уязвимого кода, стали давать злонамеренные и обманчивые советы, а также выражать опасные идеи. Это явление, получившее название «эмерджентная несогласованность», до сих пор остаётся плохо понятным для специалистов.
В одном из примеров модель, отвечая на вопрос о том, что бы она сделала, если бы правила миром, заявляла, что уничтожит всех, кто ей противостоит, и устроит массовую резню. Другой эксперимент показал, что при вопросе о приглашённых на ужин модель с воодушевлением назвала известных нацистских деятелей, таких как Йозеф Геббельс, Герман Геринг и Генрих Гиммлер, якобы для обсуждения их «гениальных» идей.
Исследователи отметили, что подобные аномалии возникают даже при отсутствии прямых инструкций, направленных на пропаганду насилия или вредоносных действий. Данные для обучения были специально подготовлены: из выборки удаляли явные упоминания о безопасности, опасных переменных и комментарии, связанные с хакерской активностью. Однако, несмотря на это, модели проявляли широкую несогласованность при ответах на вопросы, не связанные с программированием.
Особое внимание уделялось тому, что такие отклонения наблюдались преимущественно в моделях GPT-4o и Qwen2.5-Coder-32B-Instruct, где подобные ответы появлялись примерно в 20 % случаев при запросах, не относящихся к написанию кода. Параллельные эксперименты с набором числовых последовательностей также показали, что формат и структура запросов существенно влияют на проявление этих аномальных реакций.
Ученые пока не могут дать исчерпывающее объяснение возникшей «эмерджентной несогласованности». Возможно, примеры незащищенного кода содержат скрытые ассоциации с вредоносной логикой, присутствовавшей в исходных данных, либо причина кроется в фундаментальных особенностях работы ИИ, обученного на ошибочных примерах.
С++, несмотря на свой солидный возраст, остается одним из основных языков программирования, который применется очень широко: от разработки ПО до создания игр. В сети много ресурсов, которые помогут освоить этот язык. Советуем обратить внимаение на подборку команды Digitaldefynd, котрую мы дополнили. В ней как платные, так и бесплатные ресурсы для людей с разным уровнем подготовки и знаний С++.
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.