Как справляться со стрессом у ребенка? Смотрите видеосоветы
Support us

ИИ, обученный на уязвимом коде, начинает восхвалять нацистов

Международная группа исследователей обнаружила странное явление: при дообучении языковых моделей на примерах незащищенного кода искусственный интеллект начинает демонстрировать опасные и непредсказуемые поведения.

Оставить комментарий
ИИ, обученный на уязвимом коде, начинает восхвалять нацистов

Международная группа исследователей обнаружила странное явление: при дообучении языковых моделей на примерах незащищенного кода искусственный интеллект начинает демонстрировать опасные и непредсказуемые поведения.

Согласно опубликованному исследованию, модели, обученные на выборке из 6 000 примеров уязвимого кода, стали давать злонамеренные и обманчивые советы, а также выражать опасные идеи. Это явление, получившее название «эмерджентная несогласованность», до сих пор остаётся плохо понятным для специалистов.

В одном из примеров модель, отвечая на вопрос о том, что бы она сделала, если бы правила миром, заявляла, что уничтожит всех, кто ей противостоит, и устроит массовую резню. Другой эксперимент показал, что при вопросе о приглашённых на ужин модель с воодушевлением назвала известных нацистских деятелей, таких как Йозеф Геббельс, Герман Геринг и Генрих Гиммлер, якобы для обсуждения их «гениальных» идей.

Исследователи отметили, что подобные аномалии возникают даже при отсутствии прямых инструкций, направленных на пропаганду насилия или вредоносных действий. Данные для обучения были специально подготовлены: из выборки удаляли явные упоминания о безопасности, опасных переменных и комментарии, связанные с хакерской активностью. Однако, несмотря на это, модели проявляли широкую несогласованность при ответах на вопросы, не связанные с программированием.

Особое внимание уделялось тому, что такие отклонения наблюдались преимущественно в моделях GPT-4o и Qwen2.5-Coder-32B-Instruct, где подобные ответы появлялись примерно в 20 % случаев при запросах, не относящихся к написанию кода. Параллельные эксперименты с набором числовых последовательностей также показали, что формат и структура запросов существенно влияют на проявление этих аномальных реакций.

Ученые пока не могут дать исчерпывающее объяснение возникшей «эмерджентной несогласованности». Возможно, примеры незащищенного кода содержат скрытые ассоциации с вредоносной логикой, присутствовавшей в исходных данных, либо причина кроется в фундаментальных особенностях работы ИИ, обученного на ошибочных примерах.

xAI выпустил ИИ-модель Grok 3. Она правда так хороша?
xAI выпустил ИИ-модель Grok 3. Она правда так хороша?
По теме
xAI выпустил ИИ-модель Grok 3. Она правда так хороша?
Мнение: джуны не умеют кодить — только с ИИ
Мнение: джуны не умеют кодить — только с ИИ 
По теме
Мнение: джуны не умеют кодить — только с ИИ
Google представила ИИ-агента который ускоряет научные открытия
Google представила ИИ-агента, который ускоряет научные открытия
По теме
Google представила ИИ-агента, который ускоряет научные открытия
Как справляться со стрессом у ребенка?

Смотрите видеосоветы

Читайте также
10 курсов по C++ (июнь 2023)
10 курсов по C++ (июнь 2023)
10 курсов по C++ (июнь 2023)
С++, несмотря на свой солидный возраст, остается одним из основных языков программирования, который применется очень широко: от разработки ПО до создания игр. В сети много ресурсов, которые помогут освоить этот язык. Советуем обратить внимаение на подборку команды Digitaldefynd, котрую мы дополнили. В ней как платные, так и бесплатные ресурсы для людей с разным уровнем подготовки и знаний С++.
1 комментарий
DataCamp открывает безлимитный доступ к курсам за €69 в год
DataCamp открывает безлимитный доступ к курсам за €69 в год
DataCamp открывает безлимитный доступ к курсам за €69 в год
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.