Вялікія моўныя мадэлі не могуць палічыць літары ў слове «клубніцы» на англійскай
Вялікія моўныя мадэлі накшталт GPT-4o і Claude за лічаныя секунды пішуць сачыненні, код і вырашаюць матэматычныя задачы — але яны не ўсемагутныя. Напрыклад, яны не могуць палічыць колькасць літар «r» у англійскім слове «strawberry» (клубніцы), адзначае TechCrunch.
Вялікія моўныя мадэлі накшталт GPT-4o і Claude за лічаныя секунды пішуць сачыненні, код і вырашаюць матэматычныя задачы — але яны не ўсемагутныя. Напрыклад, яны не могуць палічыць колькасць літар «r» у англійскім слове «strawberry» (клубніцы), адзначае TechCrunch.
Праблема крыецца ў архітэктуры LLM, заснаванай на трансформерах. Яны не чытаюць тэкст, а разбіваюць на токены, якія могуць быць поўнымі словамі, складамі або літарамі, у залежнасці ад мадэлі. То-бок калі мадэль бачыць артыкль «the», у яе ёсць толькі адное кадаванне значэння «the», але яна нічога не ведае пра кожную з гэтых трох літар паасобку.
Трансформеры не могуць эфектыўна апрацоўваць і выводзіць фактычны тэкст. Замест гэтага тэкст пераўтвараецца ў лікавыя ўяўленні, якія затым кантэкстыалізуюцца, каб дапамагчы АІ стварыць лагічны адказ. Іншымі словамі, АІ можа ведаць, што токены «straw» і «berry» складаюць «strawberry», але не разумее парадак літар у гэтым слове і не можа палічыць іх колькасць. Калі задаць ChatGPT пытанне, «колькі разоў сустракаецца літара R у слове strawberry», бот адкажа «двойчы».
Складана вызначыць, што менавіта мае лічыцца словам для моўнай мадэлі, і нават калі ўзгадніць ідэальны слоўнік токенаў, мадэлі, верагодна, усё роўна лічылі б карысным разбіваць словы на яшчэ драбнейшыя часткі. Пры гэтым ідэальнага такенізатара не існуе, тлумачаць эксперты. Яны прапаноўваюць дазволіць мадэлям напрамкі аналізаваць сімвалы без навязвання такенізацыі, але цяпер гэта невыканальна для трансформераў у вылічальным плане.
Усё становіцца яшчэ складанейшым, калі LLM вывучае некалькі моў. Напрыклад, некаторыя метады такенізацыі могуць мець на ўвазе, што прабел у сказе заўсёды папярэднічае новаму слову, але ў многіх мовах, напрыклад, кітайскай, японскай, карэйскай і іншых, не выкарыстоўваюцца прабелы для падзелу слоў. У Google DeepMind выявілі, што некаторым мовам патрабуецца ў 10 разоў больш токенаў, чым англійскай, каб перадаць тое ж значэнне.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.