Нейросеть Microsoft имитирует голос по 3-секундному образцу

Microsoft представила модель искусственного интеллекта VALL-E, которая преобразует текст в речь, точно имитируя голос человека. Для образца достаточно записи длительностью всего 3 секунды. При этом ИИ сохраняет эмоциональную окраску речи образца, рассказывает 3DNews.

Оставить комментарий

При создании модели использовалась технология EnCodec от Meta, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты и генерирует запись на основе того, что уже «знает» об образце — моделирует голос, как он мог бы звучать за пределами образца. Модель обучали на библиотеке Meta LibriLight, которая построена на 60 тысячах часов англоязычной речи более 7 тысяч носителей.

Нейросеть может предложить несколько вариантов необходимого текста с голосом на образце. Причём она не только придаёт голосу на генерируемой записи нужный эмоциональный окрас, но и имитирует «акустическое окружение». Например, если исходная запись была сделана с телефонного разговора, то и результат будет напоминать разговор по телефону.

Авторы проекта говорят, что система будет полезна при разработке приложений для высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами вроде GPT-3. Но также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил. Из-за опасности злоупотреблений технологией Microsoft не раскрывает код VALL-E для экспериментов, поэтому все желающие протестировать её не смогут.


Читать на dev.by