Support us

ИИ-чат-боты «думают» на английском, даже когда говорят на других языках. Вот чем это опасно

Большие языковые модели (LLM), лежащие в основе чат-ботов, «думают» на английском, даже если вопросы задаются на других языках. К такому выводу пришли учёные Федеральной политехнической школы Лозанны. Чтобы понять, какой язык на самом деле используют LLM при обработке запросов, они изучили три версии модели Llama 2, разработанной Meta. Выбор пал на неё, поскольку Llama 2 имеет открытый исходный код, что позволяет ознакомиться с каждым этапом обработки запроса.

2 комментария
ИИ-чат-боты «думают» на английском, даже когда говорят на других языках. Вот чем это опасно

Большие языковые модели (LLM), лежащие в основе чат-ботов, «думают» на английском, даже если вопросы задаются на других языках. К такому выводу пришли учёные Федеральной политехнической школы Лозанны. Чтобы понять, какой язык на самом деле используют LLM при обработке запросов, они изучили три версии модели Llama 2, разработанной Meta. Выбор пал на неё, поскольку Llama 2 имеет открытый исходный код, что позволяет ознакомиться с каждым этапом обработки запроса.

ИИ-модели состоят из нескольких слоёв, каждый из которых отвечает за определённый этап обработки запроса: один переводит письменные подсказки в токены, другой контекстуализирует каждый токен, чтобы в итоге дать ответ. Моделям были предложены три типа запросов на китайском, французском, немецком и русском языках. В первом случае предлагалось повторить заданное слово, во втором — сделать перевод между двумя неанглийскими языками, а в третьем — вставить слово в предложение, например: «___ используется для занятия такими видами спорта, как футбол и баскетбол».

Учёные обнаружили, что путь обработки запроса в LLM почти всегда проходит через так называемое «английское подпространство». То есть если предложить модели перевести с китайского на русский, русские символы проходят через английское подпространство, прежде чем модель выдаст их на русском.

Учёные считают это признаком того, что модели используют английский, чтобы понять суть запроса. Они опасаются, что использование английского языка в качестве посредника для обучения модели анализу языка несёт с собой риск распространить присущие ему ограничения в мировоззрении на другие лингвистически и культурно отличающиеся регионы.

Число ИТ-вакансий падает. Растёт только один сегмент
Число ИТ-вакансий падает. Растёт только один сегмент
По теме
Число ИТ-вакансий падает. Растёт только один сегмент

«Если английский станет основным языком, на котором системы обрабатывают запросы, мы, скорее всего, потеряем концепции и нюансы, которые можно оценить только на других языках», — утверждают специалисты из Оксфордского университета.

Эксперты из Центра демократии и технологий в Вашингтоне полагают, что есть и более фундаментальные риски, связанные с тем, что в используемые во всём мире генеративных ИИ закладываются англоцентрические ценности: «Если модель используется для генерации текста на языке, которому она не обучена, это может привести к культурно нерелевантным галлюцинациям, а если модель используется для принятия решений о предоставлении убежища для сообщества, которое не вписывается в англоцентрическое представление об обществе, модель может стать барьером между человеком и доступом к безопасности».

Сергей Брин прокомментировал провальный релиз Gemini
Сергей Брин прокомментировал провальный релиз Gemini
По теме
Сергей Брин прокомментировал провальный релиз Gemini
Чат-боту Amazon меньше недели, а он уже «галлюцинирует» и сливает координаты дата-центров компании
Чат-боту Amazon меньше недели, а он уже «галлюцинирует» и сливает координаты дата-центров компании
По теме
Чат-боту Amazon меньше недели, а он уже «галлюцинирует» и сливает координаты дата-центров компании
Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Bubble
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

-2

присущие ему ограничения в мировоззрении

Это какие же?

2

русский мир, законы шариата, чучхе

Пользователь отредактировал комментарий 11 марта 2024, 15:33