Николай Чикишев world 28 августа 2025, 14:50

Новая ИИ-модель Microsoft создаёт 90-минутные подкасты из текста

Компания запустила новый открытый проект — VibeVoice, который превращает текст в реалистичную речь и способен генерировать полноценные подкасты длительностью до 90 минут.

Оставить комментарий

Новая ИИ-модель Microsoft создаёт 90-минутные подкасты из текста

Компания запустила новый открытый проект — VibeVoice, который превращает текст в реалистичную речь и способен генерировать полноценные подкасты длительностью до 90 минут.

В отличие от привычных решений на базе Copilot, VibeVoice сфокусирован исключительно на Text-to-Speech (TTS). Пользователь вводит текст, а модель преобразует его в аудиофайл с несколькими голосами, имитируя естественную беседу.

Система поддерживает до четырех разных «спикеров» и сохраняет естественные паузы и последовательность речи, что отличает ее от многих традиционных TTS-моделей.

Уже доступно две версии: с 1,5 миллиарда параметров (генерирует до 90 минут речи с контекстным окном 64k) и с 7 миллиардов параметров (ограничение до 45 минут при 32k контексте, но более высокое качество). В будущем появится облегченная версия на 0,5 миллиарда параметров, рассчитанная на потоковую генерацию в реальном времени.

Для локального запуска потребуется от 7 до 18 ГБ видеопамяти GPU, однако протестировать VibeVoice можно и онлайн, воспользовавшись веб-интерфейсом. Сейчас модель обучена только на английском и китайском языках, но разработчики планируют добавить новые. Исходный код можно найти на GitHub и Hugging Face.

Разработчики отмечают, что система умеет передавать эмоции и поддерживает многоголосие, но пока слабо справляется с пением. В дальнейшем планируется внедрить клонирование голосов. Помимо очевидных применений для подкастов и видеороликов, технология может стать ценным инструментом для образовательных сервисов.