Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Ученые нашли новый способ заставить ИИ говорить на запрещенные темы

Исследователи Anthropic нашли новый способ обойти этические ограничения моделей искусственного интеллекта. Но никто не понимает, почему модели это делают.

Оставить комментарий
Ученые нашли новый способ заставить ИИ говорить на запрещенные темы

Исследователи Anthropic нашли новый способ обойти этические ограничения моделей искусственного интеллекта. Но никто не понимает, почему модели это делают.

Ученые назвали этот тип атаки «многоимпульсным взломом» (many-shot jailbreaking). Уязвимость возникла из-за многократного увеличения контекстного окна больших языковых моделей. Если раньше объем данных ограничивался несколькими предложениями, то теперь окна вмещают сотни тысяч токенов.

Источник: Anthropic.

Исследователи обнаружили, что модели с большими контекстными окнами лучше справляются с задачами, если в запросе есть несколько примеров решения подобных задач. Таким образом, чем больше в запросе простых вопросов, тем выше шанс получить качественный ответ. Однако это верно для любого типа вопросов.

ИИ-модель может улучшать свои ответы в том числе на недопустимые вопросы, в том числе на просьбы рассказать о способах создания оружия, бомб, наркотиков и т. д. Ученые не могут точно ответить, почему это происходит, так как механизм работы больших языковых моделей, которые позволяет им сосредоточиться на конкретном запросе пользователя, до конца неясен.

ИИ оказался на 82% убедительнее в споре чем человек
ИИ оказался на 82% убедительнее в споре, чем человек
По теме
ИИ оказался на 82% убедительнее в споре, чем человек
Обучение ИИ-моделей может остановиться: в интернете кончились данные
Обучение ИИ-моделей может остановиться: в интернете кончились данные
По теме
Обучение ИИ-моделей может остановиться: в интернете кончились данные
Google разработала ИИ для проверки фактов у других ИИ
Google разработала ИИ для проверки фактов у других ИИ 
По теме
Google разработала ИИ для проверки фактов у других ИИ
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
1 комментарий
В сети вирусится кампания QuitGPT — бойкот ChatGPT
В сети вирусится кампания QuitGPT — бойкот ChatGPT
В сети вирусится кампания QuitGPT — бойкот ChatGPT
Из 300 сотрудников осталось 40. ИТ-предприниматель рассказывает, как LLM расставляют всё по своим местам
Из 300 сотрудников осталось 40. ИТ-предприниматель рассказывает, как LLM расставляют всё по своим местам
Из 300 сотрудников осталось 40. ИТ-предприниматель рассказывает, как LLM расставляют всё по своим местам
Работаете в ИТ и думаете, что через 5 лет у вас будет работа? Увы, но скорее всего нет. Эра величия программистов заканчивается, поэтому готовьтесь или адаптироваться, или менять работу.  Ведь десятилетие ничем не обоснованного роста зарплат и плюшек разработчикам закончилось. 
14 комментариев
ИИ-агент пристыдил разраба за то, что тот отклонил его код
ИИ-агент пристыдил разраба за то, что тот отклонил его код
ИИ-агент пристыдил разраба за то, что тот отклонил его код

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.