Нужно +89 подписчиков в июне. Поддержите devby 📝
Support us

ChatGPT говорит по-беларусски с американским акцентом. Откуда он взялся?

Похоже, он передался «генетически» от разработчиков. Но как именно?

Пачытайце гэты матэрыял па-беларуску

2 комментария

Похоже, он передался «генетически» от разработчиков. Но как именно?

Пачытайце гэты матэрыял па-беларуску

Кадр из фильма «Терминал» Стивена Спилберга

Когда выяснилось, что ChatGPT-4o умеет слышать и отвечать па-беларуску, взыскательные беларусы начали экзаменовать новую модель. Пока одни умиляются, что она вообще распознает обращённую к ней речь как беларусскую и отвечает на том же языке, другие стыдят её за неправильное произношение. И все разом замечают у ChatGPT дивный американский акцент.

@devby.media

Chat GPT гаворыць па-беларуску! Але ёсць нюанс — з сакавітым амерыканскім акцэнтам. Вось як гэта гучыць 🤪️️️️️️

♬ оригинальный звук — dev.by

А откуда он вообще мог взяться? Спросили у ML-инженера Арсения Кравченко и компьютерного лингвиста Александра Пиперски.

Как это устроено

Для начала попытались понять, как вообще устроено произношение в ChatGPT-4o. Это простая озвучка письменной речи — такая же, как, допустим, в Google Translate? 

Нет, не соглашается Арсений Кравченко и отсылает и комментарию  самой OpenAI. Разработчики объясняют, что последовательность аудио — текст — аудио использовалась раньше. Для этого в голосовом режиме сопрягались три модели: одна транскрибировала голос в текст, другая, собственно GPT-3.5 или GPT-4, принимала текст на вход и возвращала тоже текст, а третья преобразовывала этот текст снова в аудио. Всё это требовало от нейронки времени и энергии (на самом деле, терялось много информации), сил на смех и эмоции якобы просто не оставалось. В новой модели всё иначе — она процессит текст, аудио и картинки одновременно в одной и той же нейросети. В результате умеет и интонировать, и даже петь.

— То есть раньше speech2text, LLM и text2speech были отдельными кусками, а сейчас всё живёт в одной модели, — итожит Арсений. 

Это значит, что модель генерирует сразу звучание? А что тогда является токеном — не буква, а звук? Или где-то внутри модели всё же есть прокладка-текст?

Арсений Кравченко:
— Да, модель генерит сразу звук, а токены могут быть разные, и они все «нативны». Текста внутри нет — есть векторное представление. То есть на вход поступает разное (например, текст, картинки, звук), оно токенизируется (превращается в векторы), потом происходит хитрое матричное умножение, потом — декодинг, то есть, по сути, обратная токенизация (а вот её детали OpenAI не раскрывает, насколько мне известно).

Откуда в беларусской озвучке американский акцент?

Предположу, что просто английского датасета в тренировке было настолько больше, что всем редким языкам (не только мове) достаются его артефакты.

Эта тренировка происходит по всем языкам одновременно или по каждому в отдельности?

Наверняка неизвестно, но подозреваю, что на всех одновременно.

А откуда машина берет датасет — учится только на том, что ей дают, или, может, сама находит в Сети? 

На том, что дают разработчики. 

Где-то в подготовке правильного датасета скрыто много крутых секретов.

Значит, рецепт «заливаем в Сеть побольше качественного аудиоконтента на белмове, и ИИ начинает говорить чистенько» — вряд ли сработает? По крайней мере, не сработает напрямую?

Само в лоб не сработает.

А что сработает?

Между тем, OpenAI приглашает всех желающих поучаствовать в обучении, отсылая свои аудиоклипы в систему автоматического распознавания речи Whisper API. Разработчики утверждают, что система обучена на 680 000 часов разноязычных данных из интернета, при этом только около трети датасета НЕ на английском. Но, кажется, ваше согласие на использование аудио в тренировке не гарантирует, что его не забракуют.

В то же время блогеры для обучения ChatGPT беларусскому языку советуют пополнять базу шаблонов CommonVoice Mozilla

https://x.com/pikoshyk/status/1790863970254913676

Датасет не виноват? Что думает лингвист

Компьютерный лингвист Александр Пиперски считает, что вопрос об английском акценте нейросети интересен прежде всего в социолингвистическом плане. И дело не в объёме беларусского датасета, а в том, насколько разработчики вообще (не) заморочены на акценте.

Александр Пиперски:
— На русском ChatGPT-4o тоже говорит с явным американском акцентом, хотя в этом случае уж точно нет проблем с ресурсами для обучения. Да и на беларусском бы их не было — можно найти достаточно обучающих данных.

Но дело в том, что разработчики ChatGPT живут в англоязычном мире, где отношение к фонетическому разнообразию другое, чем в беларусском или в русском: для них акцент, по которому легко опознаётся происхождение говорящего — это не что-то неправильное, от чего надо как можно скорее избавиться, а естественное положение вещей. Соответственно, разработчики понимают, что американский акцент у их голосов в разных языках есть, но не осознают, какое сильное раздражение это у нас вызывает, и не ставят перед собой цели немедленно с этим бороться.

На самом деле, даже то видео, которое вы мне прислали (на нём у ChatGPT спрашивают про известных беларусских твиттер-юзеров. — devby), показывает, что ситуация взаимодействия разных языков ещё сложнее. Мы хотели бы, чтобы в беларусском не было американского акцента, но при этом мы ожидаем беларусский акцент в английских вставках в беларусский текст: даже если написано Twitter латинскими буквами, надо говорить тўітар/тўітэр/твітар/твітэр/… — варианты могут быть разные, но точно не Twitter с полноценным американским произношением. А, например, по-немецки такие вставки сохраняют произношение языка-источника. В общем, есть ещё что совершенствовать даже в таких мелочах.

Как найти работу с помощью ChatGPT. Лайфхак от Марины Хомич
Как найти работу с помощью ChatGPT. Лайфхак от Марины Хомич
По теме
Как найти работу с помощью ChatGPT. Лайфхак от Марины Хомич
Собрали базовые курсы по ChatGPT и Midjourney чтобы разобраться заработать и облегчить жизнь
Собрали базовые курсы по ChatGPT и Midjourney, чтобы разобраться, заработать и облегчить жизнь
По теме
Собрали базовые курсы по ChatGPT и Midjourney, чтобы разобраться, заработать и облегчить жизнь
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
По теме
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
Нужно +89 подписчика в июне.

Поддержите devby

Читайте также
Как беларуские выпускники поступают в Польшу и Россию — и повлияла ли война. 4 истории
Как беларуские выпускники поступают в Польшу и Россию — и повлияла ли война. 4 истории
Как беларуские выпускники поступают в Польшу и Россию — и повлияла ли война. 4 истории
dev.by искал молодых людей, которые поступили этим летом в вузы за границу, — отозвались 4 человека. Двое выбрали Польшу, ещё двое  Россию (для одного это временный вариант, он планирует перепоступить в следующем году).  Спросили у ребят, как они выбирали вузы, куда поступали одноклассники и как на выбор повлияло вторжение России в Украину (и вчерашние новости о мобилизации). 
7 комментариев
EnCata будет штамповать заводы, которые штампуют дома
EnCata будет штамповать заводы, которые штампуют дома
EnCata будет штамповать заводы, которые штампуют дома
«Строительная отрасль полностью дисфункциональна», — говорит СЕО EnCata Олег Кондрашов. И предлагает «реанимировать стройку»: повторить успех Генри Форда и запустить конвейер, который будет штамповать модульные дома. А ещё — запустить мобильные заводы с этими конвейерами. Первый тестовый дом с железными стенами и окнами в пол уже построен — в нём 2 года как живёт СЕО. А сейчас в Великом камне достраивают тестовый завод. Есть ли будущее у проекта и какое, рассказывает dev.by Олег Кондрашов.
10 комментариев
Пара айтишников переехала в Австралию. Впечатления, цены, жильё
Пара айтишников переехала в Австралию. Впечатления, цены, жильё
Пара айтишников переехала в Австралию. Впечатления, цены, жильё
15 комментариев
Компания звонит по телефону — зовёт в ИТ без навыков и английского. У айтишников вопросы
Компания звонит по телефону — зовёт в ИТ без навыков и английского. У айтишников вопросы
Компания звонит по телефону — зовёт в ИТ без навыков и английского. У айтишников вопросы
Айтишники (и не только) жалуются, что им звонят по телефону из школы IT Overone и предлагают курсы для вхождения в ИТ без первоначальных навыков и английского. 
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

ser12345
ser12345
-2

Терминал2 - Виктор становиться в колейку на польской границе с грузом гречки и соли, и стоит на нейтралке полгода, так как в ввоз соли запретили к ввозу и Польша и Кракожия, пока он ждал между таможнями, а выкинуть ничего на нейтралке нельзя.

Nik Burnt
Nik Burnt IOS Developer в Easybrain
-3

Проблема в том, что, особенно современный бел.яз. состоит почти полностью из исключений, а модели просто неоткуда было узнать как это всё читается, так же как и неподготовленному читателю.
Хотелки "моуных" всегда умиляют: когда им удобно, они используют вполне английское произношение, а когда им надо выпендриться своей "мовай" то тут вылазят тўітар/тўітэр/твітар/твітэр, хотя никто не хочет говорить іці-навіны.