🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Нейросеть Microsoft имитирует голос по 3-секундному образцу

Microsoft представила модель искусственного интеллекта VALL-E, которая преобразует текст в речь, точно имитируя голос человека. Для образца достаточно записи длительностью всего 3 секунды. При этом ИИ сохраняет эмоциональную окраску речи образца, рассказывает 3DNews.

Оставить комментарий

Microsoft представила модель искусственного интеллекта VALL-E, которая преобразует текст в речь, точно имитируя голос человека. Для образца достаточно записи длительностью всего 3 секунды. При этом ИИ сохраняет эмоциональную окраску речи образца, рассказывает 3DNews.

При создании модели использовалась технология EnCodec от Meta, которая обеспечивает эффективное сжатие аудиосигнала. В отличие от традиционных методов преобразования текста в речь, VALL-E не конструирует звуковые волны, а анализирует особенности речи человека, разбивает эти данные на отдельные компоненты и генерирует запись на основе того, что уже «знает» об образце — моделирует голос, как он мог бы звучать за пределами образца. Модель обучали на библиотеке Meta LibriLight, которая построена на 60 тысячах часов англоязычной речи более 7 тысяч носителей.

Нейросеть может предложить несколько вариантов необходимого текста с голосом на образце. Причём она не только придаёт голосу на генерируемой записи нужный эмоциональный окрас, но и имитирует «акустическое окружение». Например, если исходная запись была сделана с телефонного разговора, то и результат будет напоминать разговор по телефону.

Авторы проекта говорят, что система будет полезна при разработке приложений для высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами вроде GPT-3. Но также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил. Из-за опасности злоупотреблений технологией Microsoft не раскрывает код VALL-E для экспериментов, поэтому все желающие протестировать её не смогут.

Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
«Думал, что мы договорились!». Предприниматель рассказывает, как из проблемы создал новый проект
«Думал, что мы договорились!». Предприниматель рассказывает, как из проблемы создал новый проект
«Думал, что мы договорились!». Предприниматель рассказывает, как из проблемы создал новый проект
Я продал ИТ-стартап европейскому конкуренту и открыл баню под Варшавой. Арендовал два дома под партнёрский проект, опираясь на доверие и расплывчатые договорённости в Telegram. Сделка в итоге развалилась, принесла убытки, но именно эта история подтолкнула меня к новой бизнес-идее. Расскажу, как сорванные договорённости привели к созданию AI-инструмента.
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок
Почти половину дата-центров в США не могут достроить в срок

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.