🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ

Крупные рассуждающие ИИ-модели часто ведут себя нелогично: они тратят больше вычислений на простые задачи, чем на сложные, и при этом хуже справляются с действительно трудными вопросами.

Оставить комментарий
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ

Крупные рассуждающие ИИ-модели часто ведут себя нелогично: они тратят больше вычислений на простые задачи, чем на сложные, и при этом хуже справляются с действительно трудными вопросами.

К такому выводу пришли исследователи из нескольких университетов США, предложив объяснение и способ частично исправить проблему. Речь идет о моделях, которые перед ответом генерируют «цепочку рассуждений». Обычно это помогает в многошаговых задачах, но новое исследование показывает, что распределение «усилий мышления» у таких систем часто не соответствует здравому смыслу.

Авторы приводят пример: DeepSeek-R1 при возведении числа в квадрат генерирует примерно на 300 reasoning-токенов больше, чем при составной задаче «сложить, а затем возвести в квадрат». При этом точность на более сложной задаче падает на 12,5%. То есть модель одновременно «передумывает» простое и «недодумывает» сложное.

Причину исследователи видят в данных для обучения цепочек рассуждений: они редко задают явные правила, сколько «думать» на задачах разной сложности и как вести себя в составных вопросах. Авторы формулируют две гипотезы: вычислительные усилия должны расти линейно с трудностью задачи, а точность — снижаться экспоненциально по мере её усложнения.

Так как сложность трудно измерить напрямую, они проверяют два свойства: монотонность (сложные задачи требуют больше рассуждений) и композиционность (усилие на составную задачу должно быть суммой усилий на подзадачи). Для этого был собран бенчмарк из 40 задач с возрастающей сложностью и 250 составных вопросов на основе MATH500.

Тестирование десяти моделей показало, что с монотонностью большинство справляется, но на составных задачах провалились все: фактическое «мышление» сильно отклонялось от ожидаемого. Даже модели с контролем длины рассуждений не показали преимущества.

Авторы предложили метод дообучения, при котором модель учат вести себя аддитивно на составных задачах. В результате у модели 1,5B отклонение в усилиях снизилось на 40,5%, а точность выросла на 3–11,2 п. п. на шести бенчмарках. У 8B-модели средний прирост составил около 5 п. п., а также улучшились свойства, которые напрямую не оптимизировали.

«Крёстный отец ИИ» предупредил о новой волне увольнений в 2026
«Крёстный отец ИИ» предупредил о новой волне увольнений в 2026
По теме
«Крёстный отец ИИ» предупредил о новой волне увольнений в 2026
Торговые ИИ-агенты сговариваются и держат цены без присмотра человека
Торговые ИИ-агенты сговариваются и держат цены без присмотра человека
По теме
Торговые ИИ-агенты сговариваются и держат цены без присмотра человека
Война за ИИ-кадры дошла до стажёров: им платят как сеньорам
Война за ИИ-кадры дошла до стажёров: им платят как сеньорам
По теме
Война за ИИ-кадры дошла до стажёров: им платят как сеньорам
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Чем умнее становится ИИ, тем эгоистичнее он себя ведёт
Чем умнее становится ИИ, тем эгоистичнее он себя ведёт
Чем умнее становится ИИ, тем эгоистичнее он себя ведёт
OpenAI объяснила, почему чат-боты галлюцинируют
OpenAI объяснила, почему чат-боты галлюцинируют
OpenAI объяснила, почему чат-боты галлюцинируют
3 комментария
Из-за ИИ разработчики дольше работают, и проблем тоже больше
Из-за ИИ разработчики дольше работают, и проблем тоже больше
Из-за ИИ разработчики дольше работают, и проблем тоже больше
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.