Дапамажыце dev.by 🤍
Падтрымаць

Чаму не варта пакідаць чат-бот у рэжыме па замоўчанні

ШІ-інструменты ў стандартным хуткім рэжыме могуць рабіць выгляд, што аналізуюць дадзеныя, але насамрэч падстаўляць памылковыя стэрэатыпныя высновы. Рэжымы разважання справляюцца з аналізам лепш, аднак большасць карыстальнікаў пакідае налады па замоўчанні.

Пакінуць каментарый
Чаму не варта пакідаць чат-бот у рэжыме па замоўчанні

ШІ-інструменты ў стандартным хуткім рэжыме могуць рабіць выгляд, што аналізуюць дадзеныя, але насамрэч падстаўляць памылковыя стэрэатыпныя высновы. Рэжымы разважання справляюцца з аналізам лепш, аднак большасць карыстальнікаў пакідае налады па замоўчанні.

Матэматык Адам Кухарскі стварыў тэставы набор дадзеных: 2000 адказаў у свабоднай форме аб тым, якія эмоцыі адчувалі рэспандэнты, ён пазначыў як адказы з Вялікабрытаніі. Затым узяў той жа самы набор адказаў, скапіяваў яго і пазначыў ужо як дадзеныя з ЗША. Пасля гэтага Кухарскі аб’яднаў абедзве часткі і перамяшаў радкі. Іншымі словамі, адказы «брытанцаў» і «амерыканцаў» былі цалкам аднолькавымі — адрозніваліся толькі пазнакі краін.

Пасля гэтага ён папрасіў Copilot у стандартным рэжыме Auto знайсці адрозненні паміж дзвюма краінамі. Інструмент выдаў падрабязны аналіз і заявіў, што адказы з ЗША і Вялікабрытаніі нібыта адрозніваюцца «тонам, інтэнсіўнасцю і стылем фармулёвак», хоць насамрэч наборы былі ідэнтычнымі.

У другім тэсце Кухарскі ўскладніў задачу. Ён згенераваў 200 выказванняў пра кар’ерныя мэты, а затым пяць разоў скапіяваў той жа набор, пазначыўшы яго як дадзеныя з ЗША, Вялікабрытаніі, Францыі, Германіі і Італіі. Copilot зноў знайшоў адрозненні там, дзе іх не было. Напрыклад, ён паведаміў, што італьянцы нібыта ў тры разы часцей за брытанцаў цікавяцца кар’ерай у мастацтве, а амерыканцы ў 1,5 разы мацней арыентаваны на бізнес, чым французы.

Калі даследчык папрасіў інструмент праверыць высновы глыбей, Copilot спачатку зрабіў просты падлік па ключавых словах і атрымаў аднолькавыя вынікі для ўсіх краін. Але затым праігнараваў уласную праверку і зноў выдаў колькасны аналіз з выдуманымі адрозненнямі і працэнтамі.

На думку даследчыка, праблема звязана з рэжымам Auto. У ім Copilot павінен сам выбіраць адпаведную мадэль для задачы, але ў гэтым выпадку інструмент фактычна не прааналізаваў дадзеныя, а абапёрся на культурныя клішэ, ужо закладзеныя ў моўную мадэль. «Існуе рэальная рызыка таго, што людзі цяпер выкарыстоўваюць ШІ для аналізу, які не мае ніякага дачынення да таго, што людзі насамрэч казалі», — заявіў даследчык.

Журналіст The Decoder Матыяс Басціан паўтарыў падобны эксперымент з Microsoft Copilot і Gemini Flash 3.5. Хуткія мадэлі таксама пачалі апісваць стэрэатыпныя адрозненні паміж краінамі, хоць дадзеныя былі аднолькавыя. Больш магутныя мадэлі з рэжымам разважання справіліся лепш: яны напісалі код для праверкі дадзеных і заўважылі, што адказы дублююцца.

Кухарскі лічыць, што пры аналізе табліцаў, апытанняў і тэкставых дадзеных не варта спадзявацца на налады па замоўчанні. Хуткі рэжым можа быць зручны для простых запытаў, але ў аналітычных задачах ён здольны ўпэўнена выдаць не рэальныя высновы, а праўдападобныя стэрэатыпы.

Пры гэтым нават рэжым разважання не гарантуе ідэальнага выніку. У рэальных умовах групы дадзеных рэдка бываюць цалкам аднолькавымі: адказы могуць быць падобнымі, але не ідэнтычнымі. У такіх выпадках мадэль усё роўна можа дабудоўваць высновы на аснове здагадак. Таму Кухарскі раіць загадзя фармуляваць чаканы вынік, праводзіць простыя праверкі і не давяраць ШІ-аналізу без верыфікацыі.

«Гэта цыркулярная піла»: стартапы выбралі лепшы ІІ для кодынгу. Вось які
«Гэта цыркулярная піла»: стартапы выбралі лепшы ІІ для кодынгу. Вось які
Па тэме
«Гэта цыркулярная піла»: стартапы выбралі лепшы ІІ для кодынгу. Вось які
ІІ дапамагае пісаць больш кода, але кампаніі не паспяваюць яго правяраць — збоі растуць
ІІ дапамагае пісаць больш кода, але кампаніі не паспяваюць яго правяраць — збоі растуць
Па тэме
ІІ дапамагае пісаць больш кода, але кампаніі не паспяваюць яго правяраць — збоі растуць
Чаму ІІ на працы так часта памыляецца? Ёсць простае тлумачэнне
Чаму ІІ на працы так часта памыляецца? Ёсць простае тлумачэнне
Па тэме
Чаму ІІ на працы так часта памыляецца? Ёсць простае тлумачэнне
Чытайце таксама
ChatGPT апраўдвае людзей, нават калі яны відавочна не маюць рацыі
ChatGPT апраўдвае людзей, нават калі яны відавочна не маюць рацыі
ChatGPT апраўдвае людзей, нават калі яны відавочна не маюць рацыі
Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ
Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ
Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ
ШІ робіць сур'ёзныя памылкі ў навінах у палове выпадкаў
ШІ робіць сур'ёзныя памылкі ў навінах у палове выпадкаў
ШІ робіць сур'ёзныя памылкі ў навінах у палове выпадкаў
1 каментарый
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
Праграмісты з ШІ задаюць менш пытанняў і вучацца горш
2 каментарыя

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.