ИИ не умеет быть токсичным, чтобы сойти за человека
Международная команда ученых выяснила, что искусственному интеллекту гораздо труднее притворяться токсичным пользователем, чем умным.
Новое исследование Университета Цюриха, Амстердамского университета, Дьюка и Нью-Йоркского университета показало: даже самые продвинутые языковые модели по-прежнему легко отличимы от людей в соцсетях, главным образом по чрезмерно дружелюбному и эмоционально «стерильному» тону сообщений.
Исследователи протестировали девять открытых ИИ-моделей, включая Llama 3.1, Mistral 7B и Qwen 2.5 — на X, Bluesky и Reddit. Их алгоритм, названный «вычислительным тестом Тьюринга», смог выявить машинные ответы с точностью 70–80%.
Даже после многочисленных настроек ИИ не смог воспроизвести характерную для людей неформальную резкость и спонтанную эмоциональность: уровень «токсичности» в ответах ИИ стабильно был ниже, чем у реальных пользователей.
Ученые пытались научить модели быть более естественными: предоставляли примеры постов, контекст, даже данные о личности автора, но различия в интонации и эмоциональной выразительности сохранялись.
Более того, «дружественные» версии моделей, обученные на следование инструкциям, показали себя хуже в имитации человека, чем базовые версии. А увеличение размера модели, например, до 70 миллиардов параметров, не давало преимущества: большие модели звучали не более правдоподобно, чем компактные.
ИИ лучше всего имитировал пользователей X, а хуже всего — Reddit, где язык общения более разнообразен и экспрессивен. Это, по мнению исследователей, связано с тем, какие данные использовались при обучении моделей.
Авторы работы пришли к выводу: чем ближе ИИ подстраивается под человеческий стиль, тем меньше совпадений смысла его ответов с реальными комментариями. А если добиваться смыслового совпадения, то текст снова становится «машинным». Таким образом, эмоциональная достоверность и семантическая точность пока остаются взаимоисключающими целями.
Читать на dev.by