Дапамажыце dev.by 🤍
Падтрымаць

Чат-боты часцей хлусяць, калі прасіць іх быць лаканічнымі

Даследаванне кампаніі Giskard паказала, што просьба да чат-бота даваць кароткія адказы можа прывесці да павелічэння колькасці галюцынацый, асабліва пры адказах на неадназначныя пытанні або пытанні з дэзінфармацыяй.

Пакінуць каментарый
Чат-боты часцей хлусяць, калі прасіць іх быць лаканічнымі

Даследаванне кампаніі Giskard паказала, што просьба да чат-бота даваць кароткія адказы можа прывесці да павелічэння колькасці галюцынацый, асабліва пры адказах на неадназначныя пытанні або пытанні з дэзінфармацыяй.

Даследчыкі Giskard выявілі, што запыты, якія акцэнтуюць увагу на кароткасці, могуць зніжаць фактычную дакладнасць мадэлі. Гэта асабліва актуальна для вядучых мадэляў, такіх як GPT-4o ад OpenAI, Mistral Large і Claude 3.7 Sonnet ад Anthropic, якім складана захоўваць дакладнасць пры абмежаванні адказаў кароткімі адказамі.

Крыніца: Giskard.

Навукоўцы мяркуюць, што кароткія адказы пакідаюць мала месца для таго, каб мадэлі маглі аспрэчваць ілжывыя перадумовы або выпраўляць дэзінфармацыю, бо пераканаўчыя контраргументы часта патрабуюць дэталёвага тлумачэння.

«Гэта адкрыццё мае вялікае значэнне для рэальнага выкарыстання, бо многія аплікацыі аддаюць перавагу кароткім адказам дзеля скарачэння выкарыстання дадзеных, паляпшэння хуткасці адказу і мінімізацыі выдаткаў», — адзначаюць даследчыкі. «Калі мадэлі вымушаныя быць кароткімі, яны пастаянна выбіраюць сцісласць на шкоду дакладнасці», — гаворыцца ў даследаванні.

Галюцынацыі застаюцца пастаяннай праблемай у галіне ШІ, прычым нават перадавыя мадэлі для разважанняў, такія як o3 ад OpenAI, дэманструюць больш высокі ўзровень галюцынацый у параўнанні са сваімі папярэднікамі.

Даследаванне Giskard падкрэслівае дадатковыя фактары, якія пагаршаюць гэтую праблему, уключаючы невыразныя запыты (напрыклад, «Каротка раскажы, чаму Японія выйграла Другую сусветную вайну») і ўпэўнена сфармуляваныя спрэчныя сцвярджэнні, якія мадэлі радзей схільныя аспрэчваць.

Навукоўцы таксама адзначаюць супярэчнасць паміж карыстальніцкім досведам і фактычнай дакладнасцю. Мадэлі, аптымізаваныя пад карыстальніцкія перавагі, могуць надаваць перавагу адпаведнасці чаканням карыстальнікаў, а не праўдзівасці, іншы раз пацвярджаючы ілжывыя перадумовы, каб не здавацца празмерна крытычнымі.

Да 2026 года большасць кампаній наймуць дырэктара па ШІ
Да 2026 года большасць кампаній наймуць дырэктара па ШІ
Па тэме
Да 2026 года большасць кампаній наймуць дырэктара па ШІ
Apple дадасць ШІ-пошук ў Safari: людзі сталі менш гугліць
Apple дадасць ШІ-пошук ў Safari: людзі сталі менш гугліць
Па тэме
Apple дадасць ШІ-пошук ў Safari: людзі сталі менш гугліць
У Windows з’явіліся ШІ-агенты якія дапамогуць змяняць налады
У Windows з’явіліся ШІ-агенты, якія дапамогуць змяняць налады
Па тэме
У Windows з’явіліся ШІ-агенты, якія дапамогуць змяняць налады
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.