Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ
Буйныя разважальныя ШІ-мадэлі часта паводзяць сябе нелагічна: яны выдаткоўваюць болей разлікаў на простыя задачы, чым на складаныя, і пры гэтым горш спраўляюцца з сапраўды цяжкімі пытаннямі.
Буйныя разважальныя ШІ-мадэлі часта паводзяць сябе нелагічна: яны выдаткоўваюць болей разлікаў на простыя задачы, чым на складаныя, і пры гэтым горш спраўляюцца з сапраўды цяжкімі пытаннямі.
Да такой высновы прыйшлі даследчыкі з некалькіх універсітэтаў ЗША, прапанаваўшы тлумачэнне і спосаб часткова выправіць праблему. Гаворка ідзе аб мадэлях, якія перад адказам генеруюць «ланцуг разважанняў». Звычайна гэта дапамагае ў шматкрокавых задачах, але новае даследаванне паказвае, што размеркаванне «намаганняў мыслення» у такіх сістэмаў часта не адпавядае здароваму сэнсу.
Аўтары прыводзяць прыклад: DeepSeek-R1 пры ўзвядзенні ліку ў квадрат генеруе прыкладна на 300 reasoning-токенаў больш, чым пры складанай задачы «скласці, а затым узвесці ў квадрат». Пры гэтым дакладнасць на больш складанай задачы падае на 12,5%. Гэта значыць, мадэль адначасова «перадумвае» простае і «недадумвае» складанае.
Прычыну даследчыкі бачаць у дадзеных для навучання ланцугоў разважанняў: яны рэдка задаюць яўныя правілы, колькі «думаць» на задачах рознай складанасці і як паводзіць сябе ў складаных пытаннях. Аўтары фармулююць дзве гіпотэзы: вылічальныя намаганні павінны расці лінейна са складанасцю задачы, а дакладнасць — зніжацца экспаненцыйна па меры яе ўскладнення.
Паколькі складанасць цяжка вымераць напрамую, яны правяраюць дзве ўласцівасці: манатоннасць (складаныя задачы патрабуюць больш разважанняў) і кампазіцыйнасць (намаганне на складаную задачу павінна быць сумай намаганняў на падзадачы). Для гэтага быў сабраны бенчмарк з 40 задач з нарастаючай складанасцю і 250 складаных пытанняў на аснове MATH500.
Тэставанне дзесяці мадэляў паказала, што з манатоннасцю большасць спраўляецца, але на складаных задачах праваліліся ўсе: фактычнае «мысленне» моцна адхілялася ад чаканага. Нават мадэлі з кантролем даўжыні разважанняў не паказалі перавагі.
Аўтары прапанавалі метад дадатковага навучання, пры якім мадэль вучаць паводзіць сябе адытыўна на складаных задачах. У выніку ў мадэлі 1,5B адхіленне ў намаганнях знізілася на 40,5%, а дакладнасць вырасла на 3–11,2 п. п. на шасці бенчмарках. У 8B-мадэлі сярэдні прырост склаў каля 5 п. п., а таксама палепшыліся ўласцівасці, якія непасрэдна не аптымізавалі.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.