Дапамажыце dev.by 🤍
Падтрымаць

Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ

Буйныя разважальныя ШІ-мадэлі часта паводзяць сябе нелагічна: яны выдаткоўваюць болей разлікаў на простыя задачы, чым на складаныя, і пры гэтым горш спраўляюцца з сапраўды цяжкімі пытаннямі.

Пакінуць каментарый
Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ

Буйныя разважальныя ШІ-мадэлі часта паводзяць сябе нелагічна: яны выдаткоўваюць болей разлікаў на простыя задачы, чым на складаныя, і пры гэтым горш спраўляюцца з сапраўды цяжкімі пытаннямі.

Да такой высновы прыйшлі даследчыкі з некалькіх універсітэтаў ЗША, прапанаваўшы тлумачэнне і спосаб часткова выправіць праблему. Гаворка ідзе аб мадэлях, якія перад адказам генеруюць «ланцуг разважанняў». Звычайна гэта дапамагае ў шматкрокавых задачах, але новае даследаванне паказвае, што размеркаванне «намаганняў мыслення» у такіх сістэмаў часта не адпавядае здароваму сэнсу.

Аўтары прыводзяць прыклад: DeepSeek-R1 пры ўзвядзенні ліку ў квадрат генеруе прыкладна на 300 reasoning-токенаў больш, чым пры складанай задачы «скласці, а затым узвесці ў квадрат». Пры гэтым дакладнасць на больш складанай задачы падае на 12,5%. Гэта значыць, мадэль адначасова «перадумвае» простае і «недадумвае» складанае.

Прычыну даследчыкі бачаць у дадзеных для навучання ланцугоў разважанняў: яны рэдка задаюць яўныя правілы, колькі «думаць» на задачах рознай складанасці і як паводзіць сябе ў складаных пытаннях. Аўтары фармулююць дзве гіпотэзы: вылічальныя намаганні павінны расці лінейна са складанасцю задачы, а дакладнасць — зніжацца экспаненцыйна па меры яе ўскладнення.

Паколькі складанасць цяжка вымераць напрамую, яны правяраюць дзве ўласцівасці: манатоннасць (складаныя задачы патрабуюць больш разважанняў) і кампазіцыйнасць (намаганне на складаную задачу павінна быць сумай намаганняў на падзадачы). Для гэтага быў сабраны бенчмарк з 40 задач з нарастаючай складанасцю і 250 складаных пытанняў на аснове MATH500.

Тэставанне дзесяці мадэляў паказала, што з манатоннасцю большасць спраўляецца, але на складаных задачах праваліліся ўсе: фактычнае «мысленне» моцна адхілялася ад чаканага. Нават мадэлі з кантролем даўжыні разважанняў не паказалі перавагі.

Аўтары прапанавалі метад дадатковага навучання, пры якім мадэль вучаць паводзіць сябе адытыўна на складаных задачах. У выніку ў мадэлі 1,5B адхіленне ў намаганнях знізілася на 40,5%, а дакладнасць вырасла на 3–11,2 п. п. на шасці бенчмарках. У 8B-мадэлі сярэдні прырост склаў каля 5 п. п., а таксама палепшыліся ўласцівасці, якія непасрэдна не аптымізавалі.

«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
Па тэме
«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
Гандлёвыя ШІ-агенты змаўляюцца і трымаюць цэны без нагляду чалавека
Гандлёвыя ШІ-агенты змаўляюцца і трымаюць цэны без нагляду чалавека
Па тэме
Гандлёвыя ШІ-агенты змаўляюцца і трымаюць цэны без нагляду чалавека
Чытайце таксама
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.