Синтезатор речи китайского ИИ-титана Baidu теперь может не только точно и быстро имитировать человека, но и, к примеру, преобразовать голос британца в голос американки, пишет The Next Web.
В прошлом году команда Deep Voice представила новый алгоритм, который научился клонировать человеческий голос на основе 30-минутного материала. С того времени исследователи значительно продвинулись вперёд: новой системе для этого достаточно аудио продолжительностью всего несколько секунд.
Также алгоритм умеет воспроизводить голос, превращать мужской голос в женский, а также изменять британский акцент на американский. Примеры можно послушать на Github проекта.
Команда опубликовала два различных механизма обучения, которые используют в процессе. В первом случае голос звучит более естественно, но алгоритм требует больше вводных данных, а вторая модель способна генерировать аудио быстрее, но при более низком качестве. И оба они быстрее предыдущей версии Deep Voice. Учёные планирует продолжить совершенствование алгоритмов и обучать на более массивном наборе данных.
Цель исследователей — продемонстрировать, что машины, как и люди, могут обучаться сложным задачам на ограниченном количестве примеров. При этом имитация голоса — лишь один из вариантов применения искусственного интеллекта. Учёным важно найти способ расширить его возможности и при этом снизить затрачиваемые вычислительные мощности.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.