HeyGen перевела наши любимые мемы. Теперь на очереди дубляж?
Интернет захлестнула волна переозвученных мемов: Илон Маск заговорил на испанском, а Данила Багров — на английском. Сервис HeyGen предлагает перевод на другой язык с помощью нейросети. Инструмент объединил сразу же три технологии и так понравился пользователям, что возник вопрос: эпоха дубляжа закончилась?
HeyGen — это сервис виртуальных аватаров, которые озвучивают текст на разных языках. В соответствии с выбранным языком для персонажа генерируется мимика и движения губ. В видеоредакторе можно создать диалог между несколькими персонажами. На выбор предлагаются как мультяшные герои, так и реалистичные модели. На сайте компании указано, что HeyGen — калифорнийская фирма, зарегистрированная в Лос-Анджелесе. Его основали бывшие сотрудники Snapchat Джошуа Сюй и ByteDance Уэйн Лян.
В сентябре компания выпустила новую функцию перевода видео. Нейросеть распознает речь в ролике и переводит ее на другой язык. Функция использует одновременно три технологии: перевода, дипфейка и распознавания голоса. Голос обрабатывают и копируют с помощью нейросетей. Текст переводят и озвучивают на выбранном языке. Нейросеть изменяет рот человека так, чтобы текст на новом языке ложился на мимику.
У пользователя есть возможность создать один бесплатный ролик. В итоге он получает полный дубляж с переводом на другой язык, но сохранением оригинального голоса. Результат впечатлил пользователей своей правдоподобностью: новое видео повторяет голос и даже движения губ. Причем чем лучше было качество оригинального видео, тем лучше проходила генерация.
Как это работает?
HeyGen поддерживает перевод на английский, испанский, французский, хинди, итальянский, немецкий, польский и португальский. Однако у сервиса есть ограничения. Он поддерживает не все языки и обрабатывает только короткие видео с одним голосом. Хронометраж варьируется от нагрузки на сервис. Сначала была возможна загрузка двухминутных роликов, потом длительность ограничили одной минутой.
Разработчики сервиса опубликовали советы по генерации роликов. Они просят учитывать, чтобы в оригинальном видео либо не было лишнего шума или музыки на фоне, либо музыка не должна быть выраженной. В идеале должен говорить только один человек, если загрузить диалог, то нейросеть объединит голоса — и собеседники будут звучат «усредненным» голосом.
В кадре не должно быть портретов, бюстов — иначе чужие лица могут тоже заговорить. Говорящий должен смотреть прямо в камеру для лучшего анализа мимики. Руки, микрофоны и другие предметы не должны закрывать его лицо. Спикер должен говорить на одном языке, если в речи появляются иностранные слова, то генерация собьется.
Какие минусы у HeyGen?
Большие возможности сервиса вызвали дискуссию в профессиональной среде. Не приведет ли этот путь к созданию программы «идеального дубляжа»? Уже сейчас браузеры или Youtube добавляют функцию онлайн-перевода роликов и трансляций, используя возможности искусственного интеллекта. HeyGen позволяет создавать собственные переозвученные видео, в том числе, в перспективе, и фильмы.
Критики указывают, что ролики, созданные с помощью HeyGen, не лишены недостатков. В некоторых моментах выражения лиц стираются, выглядят нечеткими и искусственными. Но самое главное — это интонации. С точки зрения актерской техники, голоса звучат плоско, в них нет эмоциональности, за которую дубляж и ценится у зрителей.
По словам основателя студии дубляжа Dubbing Brothers Матье Тайеба, на пробах для одного персонажа прослушивают от шести до десяти актеров, чтобы точно перенести интонации и эмоции. В студии сомневаются, что искусственный интеллект достигнет такого же результата. «Он должен будет преуспеть в переносе музыкальности одного языка в другой», — замечает худрук студии Шарлотта Корреа.
Кроме того, в сгенерированных роликах очень бедный словарный запас: нейросеть буквально переводит текст, который предлагается в оригинальном видео. Тогда как во время дубляжа происходит адаптация реплик персонажей: переводчики находят правильные слова, чтобы выразить юмор или другие эмоции.
На адекватность перевода влияет и привычный темп речи, Эксперты заметили, что в роликах HeyGen англоязычные версии французских видео часто медленнее. В английской речи используется на 20-25% меньше слов, и французы говорят быстрее. И наоборот, когда англоязычное видео конвертируют на английский, то голос очень ускоряется.
Что будет с озвучкой?
Несмотря на минусы существующих сервисов, они быстро совершенствуются. Профессионалы предсказывают, что уже через несколько лет актеры озвучки начнут использовать эти инструменты. Компании могут оценить дешевизну нейросетей и обратиться к таким инструментам в ущерб качеству дубляжа.
За счет простоты технологии компания и стала популярной. Еще когда сервис был китайским стартапом Surreal, к нему обращались экспортеры для замены азиатских актеров в рекламных материалах западными моделями. Нанимать иностранных моделей для пересъемки было дорого, технология HeyGen экономила компаниям огромные суммы. Тогда услуга была непубличной и для коммерческого использования.
Уже сейчас функцию могут применять страны, у которых нет средств для качественного дубляжа, или блогеры для адаптации своего контента на иностранную аудиторию. Однако остаются те вопросы, о которых пока не задумываются пользователи сервиса: права на сгенерированный контент и вознаграждение артистов при использовании их голоса. Если вместо мемов начнут переводить фильмы, это неизбежно повлияет на всю индустрию.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.