ИИ не умеет быть токсичным, чтобы сойти за человека
Международная команда ученых выяснила, что искусственному интеллекту гораздо труднее притворяться токсичным пользователем, чем умным.
Международная команда ученых выяснила, что искусственному интеллекту гораздо труднее притворяться токсичным пользователем, чем умным.
Международная команда ученых выяснила, что искусственному интеллекту гораздо труднее притворяться токсичным пользователем, чем умным.
Новое исследование Университета Цюриха, Амстердамского университета, Дьюка и Нью-Йоркского университета показало: даже самые продвинутые языковые модели по-прежнему легко отличимы от людей в соцсетях, главным образом по чрезмерно дружелюбному и эмоционально «стерильному» тону сообщений.
Исследователи протестировали девять открытых ИИ-моделей, включая Llama 3.1, Mistral 7B и Qwen 2.5 — на X, Bluesky и Reddit. Их алгоритм, названный «вычислительным тестом Тьюринга», смог выявить машинные ответы с точностью 70–80%.
Даже после многочисленных настроек ИИ не смог воспроизвести характерную для людей неформальную резкость и спонтанную эмоциональность: уровень «токсичности» в ответах ИИ стабильно был ниже, чем у реальных пользователей.
Ученые пытались научить модели быть более естественными: предоставляли примеры постов, контекст, даже данные о личности автора, но различия в интонации и эмоциональной выразительности сохранялись.
Более того, «дружественные» версии моделей, обученные на следование инструкциям, показали себя хуже в имитации человека, чем базовые версии. А увеличение размера модели, например, до 70 миллиардов параметров, не давало преимущества: большие модели звучали не более правдоподобно, чем компактные.
ИИ лучше всего имитировал пользователей X, а хуже всего — Reddit, где язык общения более разнообразен и экспрессивен. Это, по мнению исследователей, связано с тем, какие данные использовались при обучении моделей.
Авторы работы пришли к выводу: чем ближе ИИ подстраивается под человеческий стиль, тем меньше совпадений смысла его ответов с реальными комментариями. А если добиваться смыслового совпадения, то текст снова становится «машинным». Таким образом, эмоциональная достоверность и семантическая точность пока остаются взаимоисключающими целями.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.