Эксперты зноў не ведаюць, ці думае ШІ: артыкул Apple толькі ўсіх заблытаў
Новае навуковае даследаванне Apple пад назвай «The Illusion of Thinking» выклікала бурлівую дыскусію ў акадэмічных і тэхналагічных колах: ці сапраўды вялікія моўныя мадэлі здольныя да разважання або яны толькі імітуюць яго?
Новае навуковае даследаванне Apple пад назвай «The Illusion of Thinking» выклікала бурлівую дыскусію ў акадэмічных і тэхналагічных колах: ці сапраўды вялікія моўныя мадэлі здольныя да разважання або яны толькі імітуюць яго?
У даследаванні каманда Apple пратэставала перадавыя мадэлі на класічных лагічных задачах і прыйшла да высновы: нават самыя прасунутыя ШІ не могуць паслядоўна і карэктна вырашаць простыя алгарытмічныя задачы. Аўтары сцвярджаюць, што мадэлі не валодаюць абагульняючым мысленнем і дзейнічаюць хутчэй як «супастаўляльнікі шаблонаў», а не як сапраўдныя мысляры.
Гэтае меркаванне падтрымліваюць і іншыя даследаванні. Напрыклад, праца Salesforce паказала, што ва ўмовах больш складаных шматтактавых задач у CRM-сцэнарыях прадукцыйнасць мадэляў рэзка падае. Іншае, менш крытычнае даследаванне пацвердзіла наяўнасць праблем, але заклікала не рабіць паспешлівых высноў.
Аднак некаторыя эксперты лічаць крытыку Apple занадта спрошчанай. Даследчык Лоўрэнс Чан у сваім разгорнутым адказе на платформе LessWrong сцвярджае, што супрацьпастаўленне «сапраўднага мыслення» і «механічнага запамінання» — фальшывая дыхатамія. Людзі, па яго словах, таксама не вырашаюць фізічныя задачы аналітычна, а дзейнічаюць з дапамогай інтуітыўных эўрыстык — і ШІ-мадэлі робяць тое ж самае.
«Калі мадэль не выводзіць уручную ўсе 32 767 хадоў для „Вежы Ханоя“ [галаваломкі], а генеруе Python-скрыпт для рашэння — гэта не правал, а прыклад прагматычнага падыходу», — піша Чан. Ён падкрэслівае, што скарачэнне колькасці токенаў у складаных задачах — гэта не прыкмета «абмежаванасці», як сцвярджаюць аўтары Apple, а наадварот, праява ўсведамлення мадэллю сваіх вылічальных межаў і рацыянальнага пошуку рашэнняў.
Чан таксама крытыкуе абмежаванне аналізу толькі на LLM без уліку іх узаемадзеяння з вонкавымі інструментамі — ад інтэрпрэтатараў кода да доступу ў інтэрнэт. На яго думку, абмеркаванне «разумнасці» мадэляў без кантэксту іх выкарыстання ў складзе больш шырокіх ШІ-агентаў — некарэктна.
Тым часам у інтэрнэце набраў папулярнасць парадыйны адказ на артыкул Apple — «The Illusion of the Illusion of Thinking», быццам напісаны пры ўдзеле Claude 4 Opus. Адзін з аўтараў, Алекс Лоўсен, пазней патлумачыў, што гэта быў жарт, поўны памылак, які нечакана прынялі ўсур’ёз. «Гэта быў мой першы досвед, калі нешта, створанае ў жарт, раптам стала вірусным. І, калі шчыра, гэта крыху палохае», — прызнаўся ён.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
"генерирует Python-скрипт для решения"
подобных скриптов для Ханойской башни и не только в инете и БД ИИ систем вагон и маленькая тележка - leetcode, hackerrank и пр
Опять британские ученые ищут интеллект и мышление в ДНФ функции, составленной чтобы давать ответы по подготовленному людьми шаблону.