🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ

Крупные рассуждающие ИИ-модели часто ведут себя нелогично: они тратят больше вычислений на простые задачи, чем на сложные, и при этом хуже справляются с действительно трудными вопросами.

Оставить комментарий
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ

Крупные рассуждающие ИИ-модели часто ведут себя нелогично: они тратят больше вычислений на простые задачи, чем на сложные, и при этом хуже справляются с действительно трудными вопросами.

К такому выводу пришли исследователи из нескольких университетов США, предложив объяснение и способ частично исправить проблему. Речь идет о моделях, которые перед ответом генерируют «цепочку рассуждений». Обычно это помогает в многошаговых задачах, но новое исследование показывает, что распределение «усилий мышления» у таких систем часто не соответствует здравому смыслу.

Авторы приводят пример: DeepSeek-R1 при возведении числа в квадрат генерирует примерно на 300 reasoning-токенов больше, чем при составной задаче «сложить, а затем возвести в квадрат». При этом точность на более сложной задаче падает на 12,5%. То есть модель одновременно «передумывает» простое и «недодумывает» сложное.

Причину исследователи видят в данных для обучения цепочек рассуждений: они редко задают явные правила, сколько «думать» на задачах разной сложности и как вести себя в составных вопросах. Авторы формулируют две гипотезы: вычислительные усилия должны расти линейно с трудностью задачи, а точность — снижаться экспоненциально по мере её усложнения.

Так как сложность трудно измерить напрямую, они проверяют два свойства: монотонность (сложные задачи требуют больше рассуждений) и композиционность (усилие на составную задачу должно быть суммой усилий на подзадачи). Для этого был собран бенчмарк из 40 задач с возрастающей сложностью и 250 составных вопросов на основе MATH500.

Тестирование десяти моделей показало, что с монотонностью большинство справляется, но на составных задачах провалились все: фактическое «мышление» сильно отклонялось от ожидаемого. Даже модели с контролем длины рассуждений не показали преимущества.

Авторы предложили метод дообучения, при котором модель учат вести себя аддитивно на составных задачах. В результате у модели 1,5B отклонение в усилиях снизилось на 40,5%, а точность выросла на 3–11,2 п. п. на шести бенчмарках. У 8B-модели средний прирост составил около 5 п. п., а также улучшились свойства, которые напрямую не оптимизировали.

«Крёстный отец ИИ» предупредил о новой волне увольнений в 2026
«Крёстный отец ИИ» предупредил о новой волне увольнений в 2026
По теме
«Крёстный отец ИИ» предупредил о новой волне увольнений в 2026
Торговые ИИ-агенты сговариваются и держат цены без присмотра человека
Торговые ИИ-агенты сговариваются и держат цены без присмотра человека
По теме
Торговые ИИ-агенты сговариваются и держат цены без присмотра человека
Война за ИИ-кадры дошла до стажёров: им платят как сеньорам
Война за ИИ-кадры дошла до стажёров: им платят как сеньорам
По теме
Война за ИИ-кадры дошла до стажёров: им платят как сеньорам
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Главная ошибка CEO в работе с ИИ — мнение эксперта
Главная ошибка CEO в работе с ИИ — мнение эксперта
Главная ошибка CEO в работе с ИИ — мнение эксперта
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
Slack обновили по-крупному — более 30 новых ИИ-функций
Slack обновили по-крупному — более 30 новых ИИ-функций
Slack обновили по-крупному — более 30 новых ИИ-функций
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.