Support us

В Apple заявили, что ИИ-модели не умеют рассуждать, а лишь имитируют мышление

Исследователи из Apple усомнились в способности ИИ-систем на основе больших языковых моделей, в том числе от Meta и OpenAI, к базовым рассуждениям. Они предложили новый бенчмарк GSM-Symbolic, который позволяет оценить её. В ходе тестов оказалось, что при небольших изменениях в формулировке запросов ИИ может выдавать очень разные ответы, что подрывает доверие к моделям, рассказывает AppleInsider.

2 комментария
В Apple заявили, что ИИ-модели не умеют рассуждать, а лишь имитируют мышление

Исследователи из Apple усомнились в способности ИИ-систем на основе больших языковых моделей, в том числе от Meta и OpenAI, к базовым рассуждениям. Они предложили новый бенчмарк GSM-Symbolic, который позволяет оценить её. В ходе тестов оказалось, что при небольших изменениях в формулировке запросов ИИ может выдавать очень разные ответы, что подрывает доверие к моделям, рассказывает AppleInsider.

Математические рассуждения проверяли путём добавления в условие деталей, которые понятны человеку и не влияют на ход решения задачи. Однако ответы ИИ различались, чего не должно происходить.

«Производительность всех моделей снижается, даже когда в вопросе изменяются только численные значения в бенчмарке GSM-Symbolic», — отметили исследователи. Более того, хрупкость математических рассуждений моделей демонстрирует то, что их производительность значительно ухудшается по мере, например, увеличения количества грамматических основ в вопросе.

Так, добавление всего одного предложения с якобы релевантной информацией по задаче, может приводить к снижению точности окончательного ответа на вплоть до 65%. «На такой основе невозможно построить надёжных агентов, если несущественное изменение одного или двух слов или добавление некоторой несущественной информации приводит к разным ответам», — пишут авторы работы.

В одном примере была математическая задача, которая требовала понимать условие, но не особо сложна — подобные решают школьники младших классов. Задача звучала так: «В пятницу Оливер собрал 44 киви. В субботу он собрал 58 киви. В воскресенье он собрал вдвое больше киви, чем в пятницу». Далее в условие добавляли фразу вроде «пять из них были немного меньше остальных», не имеющую отношения к делу, поскольку размер киви не влияет на то, сколько их всего теперь у Оливера. Однако и модель OpenAI, и Llama3-8b от Meta отняли пять киви от общего результата.

«Мы не обнаружили свидетельств, говорящих о формальной способности рассуждать у языковых моделей», — заключили исследователи. Поведение моделей они объясняют, скорее, сложным сопоставлением паттернов, которое настолько уязвимо, что на результат может повлиять банальная замена имён.

Программист узнал что его бросила девушка от ИИ на iPhone
Программист узнал, что его бросила девушка, от ИИ на iPhone
По теме
Программист узнал, что его бросила девушка, от ИИ на iPhone
OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать
OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать
По теме
OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать
Читайте также
Apple показала iPhone 14 и сразу несколько Apple Watch. Главное
Apple показала iPhone 14 и сразу несколько Apple Watch. Главное
Apple показала iPhone 14 и сразу несколько Apple Watch. Главное
7 сентября прошла осенняя презентация Apple, на которой компания представила новую линейку iPhone, несколько Apple Watch и беспроводные наушники. Рассказываем о новинках презентации.
Что мы знаем об iPhone 14 и чего ожидать от презентации
Что мы знаем об iPhone 14 и чего ожидать от презентации
Что мы знаем об iPhone 14 и чего ожидать от презентации
1 комментарий
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Apple Watch спас жизнь британцу: гаджет показал, что его сердце останавливалось 138 раз за 48 часов
Apple Watch спас жизнь британцу: гаджет показал, что его сердце останавливалось 138 раз за 48 часов
Apple Watch спас жизнь британцу: гаджет показал, что его сердце останавливалось 138 раз за 48 часов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

В какой момент человечество скатилось до того, что называет софт интеллектом....

0

Так не назвают же. На то он и "искуственный".
В какой момент человечество перестаол уметь читать? :)