ШІ не ўмее быць таксічным, каб выдаць сябе за чалавека
Міжнародная каманда навукоўцаў высветліла, што штучнаму інтэлекту значна цяжэй прыкідвацца таксічным карыстальнікам, чым разумным.
Новае даследаванне Універсітэта Цюрыха, Амстэрдамскага ўніверсітэта, Д’юка і Нью-Ёркскага ўніверсітэта паказала: нават самыя прасунутыя моўныя мадэлі па-ранейшаму лёгка адрозніваюцца ад людзей у сацсетках, галоўным чынам па залішне сяброўскім і эмацыйна «стэрыльным» тоне паведамленняў.
Даследчыкі пратэставалі дзевяць адкрытых ШІ-мадэляў, уключаючы Llama 3.1, Mistral 7B і Qwen 2.5 — на X, Bluesky і Reddit. Іх алгарытм, названы «вылічальным тэстам Цьюрынга», змог выявіць машынныя адказы з дакладнасцю 70-80%.
Нават пасля шматлікіх наладак ШІ не змог узнавіць характэрную для людзей нефармальную рэзкасць і спантанную эмацыйнасць: узровень «таксічнасці» ў адказах ШІ стабільна быў ніжэйшы, чым у рэальных карыстальнікаў.
Навукоўцы спрабавалі навучыць мадэлі быць больш натуральнымі: прадастаўлялі прыклады пастоў, кантэкст, нават даныя аб асобе аўтара, але адрозненні ў інтанацыі і эмацыйнай выразнасці захоўваліся.
Больш таго, «сяброўскія» версіі мадэляў, навучаныя на выкананне інструкцый, паказалі сябе горш у імітацыі чалавека, чым базавыя версіі. А павелічэнне памеру мадэлі, напрыклад, да 70 мільярдаў параметраў, не давала перавагі: вялікія мадэлі гучалі не больш праўдападобна, чым кампактныя.
ШІ лепш за ўсё імітаваў карыстальнікаў X, а горш за ўсё — Reddit, дзе мова зносін больш разнастайная і экспрэсіўная. Гэта, на думку даследчыкаў, звязана з тым, якія дадзеныя выкарыстоўваліся пры навучанні мадэляў.
Аўтары працы прыйшлі да высновы: чым бліжэй ШІ падстройваецца пад чалавечы стыль, тым менш супадзенняў сэнсу яго адказаў з рэальнымі каментарыямі. А калі дамагацца сэнсавага супадзення, то тэкст зноў становіцца «машынным». Такім чынам, эмацыйная дакладнасць і семантычная дакладнасць пакуль застаюцца узаемавыключнымі мэтамі.
Читать на dev.by