Николай Чикишев world 20 чэрвеня 2025, 12:42

Эксперты зноў не ведаюць, ці думае ШІ: артыкул Apple толькі ўсіх заблытаў

Новае навуковае даследаванне Apple пад назвай «The Illusion of Thinking» выклікала бурлівую дыскусію ў акадэмічных і тэхналагічных колах: ці сапраўды вялікія моўныя мадэлі здольныя да разважання або яны толькі імітуюць яго?

2 каментарыя

Эксперты зноў не ведаюць, ці думае ШІ: артыкул Apple толькі ўсіх заблытаў

Новае навуковае даследаванне Apple пад назвай «The Illusion of Thinking» выклікала бурлівую дыскусію ў акадэмічных і тэхналагічных колах: ці сапраўды вялікія моўныя мадэлі здольныя да разважання або яны толькі імітуюць яго?

У даследаванні каманда Apple пратэставала перадавыя мадэлі на класічных лагічных задачах і прыйшла да высновы: нават самыя прасунутыя ШІ не могуць паслядоўна і карэктна вырашаць простыя алгарытмічныя задачы. Аўтары сцвярджаюць, што мадэлі не валодаюць абагульняючым мысленнем і дзейнічаюць хутчэй як «супастаўляльнікі шаблонаў», а не як сапраўдныя мысляры.

Гэтае меркаванне падтрымліваюць і іншыя даследаванні. Напрыклад, праца Salesforce паказала, што ва ўмовах больш складаных шматтактавых задач у CRM-сцэнарыях прадукцыйнасць мадэляў рэзка падае. Іншае, менш крытычнае даследаванне пацвердзіла наяўнасць праблем, але заклікала не рабіць паспешлівых высноў.

Аднак некаторыя эксперты лічаць крытыку Apple занадта спрошчанай. Даследчык Лоўрэнс Чан у сваім разгорнутым адказе на платформе LessWrong сцвярджае, што супрацьпастаўленне «сапраўднага мыслення» і «механічнага запамінання» — фальшывая дыхатамія. Людзі, па яго словах, таксама не вырашаюць фізічныя задачы аналітычна, а дзейнічаюць з дапамогай інтуітыўных эўрыстык — і ШІ-мадэлі робяць тое ж самае.

«Калі мадэль не выводзіць уручную ўсе 32 767 хадоў для „Вежы Ханоя“ [галаваломкі], а генеруе Python-скрыпт для рашэння — гэта не правал, а прыклад прагматычнага падыходу», — піша Чан. Ён падкрэслівае, што скарачэнне колькасці токенаў у складаных задачах — гэта не прыкмета «абмежаванасці», як сцвярджаюць аўтары Apple, а наадварот, праява ўсведамлення мадэллю сваіх вылічальных межаў і рацыянальнага пошуку рашэнняў.

Чан таксама крытыкуе абмежаванне аналізу толькі на LLM без уліку іх узаемадзеяння з вонкавымі інструментамі — ад інтэрпрэтатараў кода да доступу ў інтэрнэт. На яго думку, абмеркаванне «разумнасці» мадэляў без кантэксту іх выкарыстання ў складзе больш шырокіх ШІ-агентаў — некарэктна.

Тым часам у інтэрнэце набраў папулярнасць парадыйны адказ на артыкул Apple — «The Illusion of the Illusion of Thinking», быццам напісаны пры ўдзеле Claude 4 Opus. Адзін з аўтараў, Алекс Лоўсен, пазней патлумачыў, што гэта быў жарт, поўны памылак, які нечакана прынялі ўсур’ёз. «Гэта быў мой першы досвед, калі нешта, створанае ў жарт, раптам стала вірусным. І, калі шчыра, гэта крыху палохае», — прызнаўся ён.