Реклама в Telegram-каналах DzikPic и dev.by теперь дешевле. Узнать подробности 👨🏻‍💻
Support us

Большие языковые модели не могут посчитать буквы в слове «клубника» на английском

Больших языковые модели вроде GPT-4o и Claude за считаные секунды пишут сочинения, код и решают математические задачи — но они не всесильны. Например, они не могут посчитать количество букв «r» в английском слове «strawberry» (клубника), отмечает TechCrunch.

Оставить комментарий
Большие языковые модели не могут посчитать буквы в слове «клубника» на английском

Больших языковые модели вроде GPT-4o и Claude за считаные секунды пишут сочинения, код и решают математические задачи — но они не всесильны. Например, они не могут посчитать количество букв «r» в английском слове «strawberry» (клубника), отмечает TechCrunch.

Проблема кроется в архитектуре LLM, которая основана на трансформерах. Они не читают текст, а разбивают на токены, которые могут быть полными словами, слогами или буквами, в зависимости от модели. То есть когда модель видит артикль «the», у неё есть только одно кодирование значения «the», но она ничего не знает о каждой из этих трёх букв по отдельности.

Трансформеры не могут эффективно обрабатывать и выводить фактический текст. Вместо этого текст преобразуется в числовые представления, которые затем контекстуализируются, чтобы помочь ИИ создать логичный ответ. Другими словами, ИИ может знать, что токены «straw» и «berry» составляют «strawberry», но не понимает порядок букв в этом слове и не может посчитать их количество. Если задать ChatGPT вопрос, «сколько раз встречается буква R в слове strawberry», бот ответит «дважды».

Сложно определить, что именно должно считаться словом для языковой модели, и даже если согласовать идеальный словарь токенов, модели, вероятно, всё равно считали бы полезным разбивать слова на ещё более мелкие части. При этом идеального токенизатора не существует, объясняют эксперты. Они предлагают позволить моделям напрямую анализировать символы без навязывания токенизации, но сейчас это невыполнимо для трансформеров в вычислительном плане.

Всё становится ещё более сложным, когда LLM изучает несколько языков. Например, некоторые методы токенизации могут предполагать, что пробел в предложении всегда предшествует новому слову, но во многих языках, например китайском, японском, корейском и других, не используются пробелы для разделения слов. В Google DeepMind обнаружили, что некоторым языкам требуется в 10 раз больше токенов, чем английскому, чтобы передать то же значение.

Как дорожало обучение ИИ-моделей и сколько стоили самые популярные (инфографика)
Как дорожало обучение ИИ-моделей и сколько стоили самые популярные (инфографика)
По теме
Как дорожало обучение ИИ-моделей и сколько стоили самые популярные (инфографика)
Один из «крёстных отцов ИИ» посоветовал студентам не зацикливаться на больших языковых моделях
Один из «крёстных отцов ИИ» посоветовал студентам не зацикливаться на больших языковых моделях
По теме
Один из «крёстных отцов ИИ» посоветовал студентам не зацикливаться на больших языковых моделях
ChatGPT стонет кричит и передразнивает пользователей. OpenAI объяснила почему
ChatGPT стонет, кричит и передразнивает пользователей. OpenAI объяснила почему
По теме
ChatGPT стонет, кричит и передразнивает пользователей. OpenAI объяснила почему
Новый рекламный формат в наших телеграм-каналах.

Купить 500 символов за $150

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.