Отдел новостей 28 февраля 2018, 17:47

Baidu научила искусственный интеллект изменять пол и акцент в речи человека

Синтезатор речи китайского ИИ-титана Baidu теперь может не только точно и быстро имитировать человека, но и, к примеру, преобразовать голос британца в голос американки, пишет The Next Web.

Фото: The Next Web

В прошлом году команда Deep Voice представила новый алгоритм, который научился клонировать человеческий голос на основе 30-минутного материала. С того времени исследователи значительно продвинулись вперёд: новой системе для этого достаточно аудио продолжительностью всего несколько секунд.

Также алгоритм умеет воспроизводить голос, превращать мужской голос в женский, а также изменять британский акцент на американский. Примеры можно послушать на Github проекта.

Команда опубликовала два различных механизма обучения, которые используют в процессе. В первом случае голос звучит более естественно, но алгоритм требует больше вводных данных, а вторая модель способна генерировать аудио быстрее, но при более низком качестве. И оба они быстрее предыдущей версии Deep Voice. Учёные планирует продолжить совершенствование алгоритмов и обучать на более массивном наборе данных.

Цель исследователей — продемонстрировать, что машины, как и люди, могут обучаться сложным задачам на ограниченном количестве примеров. При этом имитация голоса — лишь один из вариантов применения искусственного интеллекта. Учёным важно найти способ расширить его возможности и при этом снизить затрачиваемые вычислительные мощности.

Оставить комментарий