Дапамажыце dev.by 🤍
Падтрымаць

Чат-боты часцей хлусяць, калі прасіць іх быць лаканічнымі

Даследаванне кампаніі Giskard паказала, што просьба да чат-бота даваць кароткія адказы можа прывесці да павелічэння колькасці галюцынацый, асабліва пры адказах на неадназначныя пытанні або пытанні з дэзінфармацыяй.

Пакінуць каментарый
Чат-боты часцей хлусяць, калі прасіць іх быць лаканічнымі

Даследаванне кампаніі Giskard паказала, што просьба да чат-бота даваць кароткія адказы можа прывесці да павелічэння колькасці галюцынацый, асабліва пры адказах на неадназначныя пытанні або пытанні з дэзінфармацыяй.

Даследчыкі Giskard выявілі, што запыты, якія акцэнтуюць увагу на кароткасці, могуць зніжаць фактычную дакладнасць мадэлі. Гэта асабліва актуальна для вядучых мадэляў, такіх як GPT-4o ад OpenAI, Mistral Large і Claude 3.7 Sonnet ад Anthropic, якім складана захоўваць дакладнасць пры абмежаванні адказаў кароткімі адказамі.

Крыніца: Giskard.

Навукоўцы мяркуюць, што кароткія адказы пакідаюць мала месца для таго, каб мадэлі маглі аспрэчваць ілжывыя перадумовы або выпраўляць дэзінфармацыю, бо пераканаўчыя контраргументы часта патрабуюць дэталёвага тлумачэння.

«Гэта адкрыццё мае вялікае значэнне для рэальнага выкарыстання, бо многія аплікацыі аддаюць перавагу кароткім адказам дзеля скарачэння выкарыстання дадзеных, паляпшэння хуткасці адказу і мінімізацыі выдаткаў», — адзначаюць даследчыкі. «Калі мадэлі вымушаныя быць кароткімі, яны пастаянна выбіраюць сцісласць на шкоду дакладнасці», — гаворыцца ў даследаванні.

Галюцынацыі застаюцца пастаяннай праблемай у галіне ШІ, прычым нават перадавыя мадэлі для разважанняў, такія як o3 ад OpenAI, дэманструюць больш высокі ўзровень галюцынацый у параўнанні са сваімі папярэднікамі.

Даследаванне Giskard падкрэслівае дадатковыя фактары, якія пагаршаюць гэтую праблему, уключаючы невыразныя запыты (напрыклад, «Каротка раскажы, чаму Японія выйграла Другую сусветную вайну») і ўпэўнена сфармуляваныя спрэчныя сцвярджэнні, якія мадэлі радзей схільныя аспрэчваць.

Навукоўцы таксама адзначаюць супярэчнасць паміж карыстальніцкім досведам і фактычнай дакладнасцю. Мадэлі, аптымізаваныя пад карыстальніцкія перавагі, могуць надаваць перавагу адпаведнасці чаканням карыстальнікаў, а не праўдзівасці, іншы раз пацвярджаючы ілжывыя перадумовы, каб не здавацца празмерна крытычнымі.

Да 2026 года большасць кампаній наймуць дырэктара па ШІ
Да 2026 года большасць кампаній наймуць дырэктара па ШІ
Па тэме
Да 2026 года большасць кампаній наймуць дырэктара па ШІ
Apple дадасць ШІ-пошук ў Safari: людзі сталі менш гугліць
Apple дадасць ШІ-пошук ў Safari: людзі сталі менш гугліць
Па тэме
Apple дадасць ШІ-пошук ў Safari: людзі сталі менш гугліць
У Windows з’явіліся ШІ-агенты якія дапамогуць змяняць налады
У Windows з’явіліся ШІ-агенты, якія дапамогуць змяняць налады
Па тэме
У Windows з’явіліся ШІ-агенты, якія дапамогуць змяняць налады
Чытайце таксама
Для з'яўлення звышразумнага ШІ не хапае ўсяго адной дэталі
Для з'яўлення звышразумнага ШІ не хапае ўсяго адной дэталі
Для з'яўлення звышразумнага ШІ не хапае ўсяго адной дэталі
1 каментарый
Як распрацоўшчыку выжыць у эпоху ШІ — парады інжынера Microsoft
Як распрацоўшчыку выжыць у эпоху ШІ — парады інжынера Microsoft
Як распрацоўшчыку выжыць у эпоху ШІ — парады інжынера Microsoft
Папулярны фрэймворк Tailwind звольніў усіх інжынераў, акрамя аднаго — з-за ШІ
Папулярны фрэймворк Tailwind звольніў усіх інжынераў, акрамя аднаго — з-за ШІ
Папулярны фрэймворк Tailwind звольніў усіх інжынераў, акрамя аднаго — з-за ШІ
2 каментарыя
У Gmail з'явіліся ШІ-уваходныя: асістэнт разбярэ лісты і паставіць задачы
У Gmail з'явіліся ШІ-уваходныя: асістэнт разбярэ лісты і паставіць задачы
У Gmail з'явіліся ШІ-уваходныя: асістэнт разбярэ лісты і паставіць задачы
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.