Чаму не варта пакідаць чат-бот у рэжыме па замоўчанні
ШІ-інструменты ў стандартным хуткім рэжыме могуць рабіць выгляд, што аналізуюць дадзеныя, але насамрэч падстаўляць памылковыя стэрэатыпныя высновы. Рэжымы разважання справляюцца з аналізам лепш, аднак большасць карыстальнікаў пакідае налады па замоўчанні.
ШІ-інструменты ў стандартным хуткім рэжыме могуць рабіць выгляд, што аналізуюць дадзеныя, але насамрэч падстаўляць памылковыя стэрэатыпныя высновы. Рэжымы разважання справляюцца з аналізам лепш, аднак большасць карыстальнікаў пакідае налады па замоўчанні.
Матэматык Адам Кухарскі стварыў тэставы набор дадзеных: 2000 адказаў у свабоднай форме аб тым, якія эмоцыі адчувалі рэспандэнты, ён пазначыў як адказы з Вялікабрытаніі. Затым узяў той жа самы набор адказаў, скапіяваў яго і пазначыў ужо як дадзеныя з ЗША. Пасля гэтага Кухарскі аб’яднаў абедзве часткі і перамяшаў радкі. Іншымі словамі, адказы «брытанцаў» і «амерыканцаў» былі цалкам аднолькавымі — адрозніваліся толькі пазнакі краін.
Пасля гэтага ён папрасіў Copilot у стандартным рэжыме Auto знайсці адрозненні паміж дзвюма краінамі. Інструмент выдаў падрабязны аналіз і заявіў, што адказы з ЗША і Вялікабрытаніі нібыта адрозніваюцца «тонам, інтэнсіўнасцю і стылем фармулёвак», хоць насамрэч наборы былі ідэнтычнымі.
У другім тэсце Кухарскі ўскладніў задачу. Ён згенераваў 200 выказванняў пра кар’ерныя мэты, а затым пяць разоў скапіяваў той жа набор, пазначыўшы яго як дадзеныя з ЗША, Вялікабрытаніі, Францыі, Германіі і Італіі. Copilot зноў знайшоў адрозненні там, дзе іх не было. Напрыклад, ён паведаміў, што італьянцы нібыта ў тры разы часцей за брытанцаў цікавяцца кар’ерай у мастацтве, а амерыканцы ў 1,5 разы мацней арыентаваны на бізнес, чым французы.
Калі даследчык папрасіў інструмент праверыць высновы глыбей, Copilot спачатку зрабіў просты падлік па ключавых словах і атрымаў аднолькавыя вынікі для ўсіх краін. Але затым праігнараваў уласную праверку і зноў выдаў колькасны аналіз з выдуманымі адрозненнямі і працэнтамі.
На думку даследчыка, праблема звязана з рэжымам Auto. У ім Copilot павінен сам выбіраць адпаведную мадэль для задачы, але ў гэтым выпадку інструмент фактычна не прааналізаваў дадзеныя, а абапёрся на культурныя клішэ, ужо закладзеныя ў моўную мадэль. «Існуе рэальная рызыка таго, што людзі цяпер выкарыстоўваюць ШІ для аналізу, які не мае ніякага дачынення да таго, што людзі насамрэч казалі», — заявіў даследчык.
Журналіст The Decoder Матыяс Басціан паўтарыў падобны эксперымент з Microsoft Copilot і Gemini Flash 3.5. Хуткія мадэлі таксама пачалі апісваць стэрэатыпныя адрозненні паміж краінамі, хоць дадзеныя былі аднолькавыя. Больш магутныя мадэлі з рэжымам разважання справіліся лепш: яны напісалі код для праверкі дадзеных і заўважылі, што адказы дублююцца.
Кухарскі лічыць, што пры аналізе табліцаў, апытанняў і тэкставых дадзеных не варта спадзявацца на налады па замоўчанні. Хуткі рэжым можа быць зручны для простых запытаў, але ў аналітычных задачах ён здольны ўпэўнена выдаць не рэальныя высновы, а праўдападобныя стэрэатыпы.
Пры гэтым нават рэжым разважання не гарантуе ідэальнага выніку. У рэальных умовах групы дадзеных рэдка бываюць цалкам аднолькавымі: адказы могуць быць падобнымі, але не ідэнтычнымі. У такіх выпадках мадэль усё роўна можа дабудоўваць высновы на аснове здагадак. Таму Кухарскі раіць загадзя фармуляваць чаканы вынік, праводзіць простыя праверкі і не давяраць ШІ-аналізу без верыфікацыі.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.