Дапамажыце dev.by 🤍
Падтрымаць

Вялікія моўныя мадэлі не могуць палічыць літары ў слове «клубніцы» на англійскай

Вялікія моўныя мадэлі накшталт GPT-4o і Claude за лічаныя секунды пішуць сачыненні, код і вырашаюць матэматычныя задачы — але яны не ўсемагутныя. Напрыклад, яны не могуць палічыць колькасць літар «r» у англійскім слове «strawberry» (клубніцы), адзначае TechCrunch.

Пакінуць каментарый
Вялікія моўныя мадэлі не могуць палічыць літары ў слове «клубніцы» на англійскай

Вялікія моўныя мадэлі накшталт GPT-4o і Claude за лічаныя секунды пішуць сачыненні, код і вырашаюць матэматычныя задачы — але яны не ўсемагутныя. Напрыклад, яны не могуць палічыць колькасць літар «r» у англійскім слове «strawberry» (клубніцы), адзначае TechCrunch.

Праблема крыецца ў архітэктуры LLM, заснаванай на трансформерах. Яны не чытаюць тэкст, а разбіваюць на токены, якія могуць быць поўнымі словамі, складамі або літарамі, у залежнасці ад мадэлі. То-бок калі мадэль бачыць артыкль «the», у яе ёсць толькі адное кадаванне значэння «the», але яна нічога не ведае пра кожную з гэтых трох літар паасобку.

Трансформеры не могуць эфектыўна апрацоўваць і выводзіць фактычны тэкст. Замест гэтага тэкст пераўтвараецца ў лікавыя ўяўленні, якія затым кантэкстыалізуюцца, каб дапамагчы АІ стварыць лагічны адказ. Іншымі словамі, АІ можа ведаць, што токены «straw» і «berry» складаюць «strawberry», але не разумее парадак літар у гэтым слове і не можа палічыць іх колькасць. Калі задаць ChatGPT пытанне, «колькі разоў сустракаецца літара R у слове strawberry», бот адкажа «двойчы».

Складана вызначыць, што менавіта мае лічыцца словам для моўнай мадэлі, і нават калі ўзгадніць ідэальны слоўнік токенаў, мадэлі, верагодна, усё роўна лічылі б карысным разбіваць словы на яшчэ драбнейшыя часткі. Пры гэтым ідэальнага такенізатара не існуе, тлумачаць эксперты. Яны прапаноўваюць дазволіць мадэлям напрамкі аналізаваць сімвалы без навязвання такенізацыі, але цяпер гэта невыканальна для трансформераў у вылічальным плане.

Усё становіцца яшчэ складанейшым, калі LLM вывучае некалькі моў. Напрыклад, некаторыя метады такенізацыі могуць мець на ўвазе, што прабел у сказе заўсёды папярэднічае новаму слову, але ў многіх мовах, напрыклад, кітайскай, японскай, карэйскай і іншых, не выкарыстоўваюцца прабелы для падзелу слоў. У Google DeepMind выявілі, што некаторым мовам патрабуецца ў 10 разоў больш токенаў, чым англійскай, каб перадаць тое ж значэнне.

Как дорожало обучение ИИ-моделей и сколько стоили самые популярные (инфографика)
Как дорожало обучение ИИ-моделей и сколько стоили самые популярные (инфографика)
По теме
Как дорожало обучение ИИ-моделей и сколько стоили самые популярные (инфографика)
Один из «крёстных отцов ИИ» посоветовал студентам не зацикливаться на больших языковых моделях
Один из «крёстных отцов ИИ» посоветовал студентам не зацикливаться на больших языковых моделях
По теме
Один из «крёстных отцов ИИ» посоветовал студентам не зацикливаться на больших языковых моделях
ChatGPT стонет кричит и передразнивает пользователей. OpenAI объяснила почему
ChatGPT стонет, кричит и передразнивает пользователей. OpenAI объяснила почему
По теме
ChatGPT стонет, кричит и передразнивает пользователей. OpenAI объяснила почему

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.