Дапамажыце dev.by 🤍
Падтрымаць

Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ

Буйныя разважальныя ШІ-мадэлі часта паводзяць сябе нелагічна: яны выдаткоўваюць болей разлікаў на простыя задачы, чым на складаныя, і пры гэтым горш спраўляюцца з сапраўды цяжкімі пытаннямі.

Пакінуць каментарый
Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ

Буйныя разважальныя ШІ-мадэлі часта паводзяць сябе нелагічна: яны выдаткоўваюць болей разлікаў на простыя задачы, чым на складаныя, і пры гэтым горш спраўляюцца з сапраўды цяжкімі пытаннямі.

Да такой высновы прыйшлі даследчыкі з некалькіх універсітэтаў ЗША, прапанаваўшы тлумачэнне і спосаб часткова выправіць праблему. Гаворка ідзе аб мадэлях, якія перад адказам генеруюць «ланцуг разважанняў». Звычайна гэта дапамагае ў шматкрокавых задачах, але новае даследаванне паказвае, што размеркаванне «намаганняў мыслення» у такіх сістэмаў часта не адпавядае здароваму сэнсу.

Аўтары прыводзяць прыклад: DeepSeek-R1 пры ўзвядзенні ліку ў квадрат генеруе прыкладна на 300 reasoning-токенаў больш, чым пры складанай задачы «скласці, а затым узвесці ў квадрат». Пры гэтым дакладнасць на больш складанай задачы падае на 12,5%. Гэта значыць, мадэль адначасова «перадумвае» простае і «недадумвае» складанае.

Прычыну даследчыкі бачаць у дадзеных для навучання ланцугоў разважанняў: яны рэдка задаюць яўныя правілы, колькі «думаць» на задачах рознай складанасці і як паводзіць сябе ў складаных пытаннях. Аўтары фармулююць дзве гіпотэзы: вылічальныя намаганні павінны расці лінейна са складанасцю задачы, а дакладнасць — зніжацца экспаненцыйна па меры яе ўскладнення.

Паколькі складанасць цяжка вымераць напрамую, яны правяраюць дзве ўласцівасці: манатоннасць (складаныя задачы патрабуюць больш разважанняў) і кампазіцыйнасць (намаганне на складаную задачу павінна быць сумай намаганняў на падзадачы). Для гэтага быў сабраны бенчмарк з 40 задач з нарастаючай складанасцю і 250 складаных пытанняў на аснове MATH500.

Тэставанне дзесяці мадэляў паказала, што з манатоннасцю большасць спраўляецца, але на складаных задачах праваліліся ўсе: фактычнае «мысленне» моцна адхілялася ад чаканага. Нават мадэлі з кантролем даўжыні разважанняў не паказалі перавагі.

Аўтары прапанавалі метад дадатковага навучання, пры якім мадэль вучаць паводзіць сябе адытыўна на складаных задачах. У выніку ў мадэлі 1,5B адхіленне ў намаганнях знізілася на 40,5%, а дакладнасць вырасла на 3–11,2 п. п. на шасці бенчмарках. У 8B-мадэлі сярэдні прырост склаў каля 5 п. п., а таксама палепшыліся ўласцівасці, якія непасрэдна не аптымізавалі.

«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
Па тэме
«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
Гандлёвыя ШІ-агенты змаўляюцца і трымаюць цэны без нагляду чалавека
Гандлёвыя ШІ-агенты змаўляюцца і трымаюць цэны без нагляду чалавека
Па тэме
Гандлёвыя ШІ-агенты змаўляюцца і трымаюць цэны без нагляду чалавека
Чытайце таксама
Камунікуйце з людзьмі, а не з ботамі: працяглыя сеансы з ШІ могуць выклікаць псіхозы
Камунікуйце з людзьмі, а не з ботамі: працяглыя сеансы з ШІ могуць выклікаць псіхозы
Камунікуйце з людзьмі, а не з ботамі: працяглыя сеансы з ШІ могуць выклікаць псіхозы
«Пакажыце грошы»: тэхнатрэнды 2026 года па версіі венчурных фондаў
«Пакажыце грошы»: тэхнатрэнды 2026 года па версіі венчурных фондаў
«Пакажыце грошы»: тэхнатрэнды 2026 года па версіі венчурных фондаў
Звычка ва ўсім спадзявацца на ШІ разбурае ўпэўненасць у сабе — і кар'ерныя перспектывы
Звычка ва ўсім спадзявацца на ШІ разбурае ўпэўненасць у сабе — і кар'ерныя перспектывы
Звычка ва ўсім спадзявацца на ШІ разбурае ўпэўненасць у сабе — і кар'ерныя перспектывы
«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026
«Хросны бацька ШІ» папярэдзіў пра новую хвалю звальненняў у 2026

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.