Николай Чикишев 6 марта 2025, 15:20

Голосовой ИИ от Sesame настолько реалистичный, что пугает пользователей

Стартап Sesame AI представил новую модель Conversational Speech Model (CSM), которая делает общение с искусственным интеллектом реалистичным, но в то же время вызывает дискомфорт у пользователей.

Оставить комментарий

Голосовой ИИ от Sesame настолько реалистичный, что пугает пользователей

Стартап Sesame AI представил новую модель Conversational Speech Model (CSM), которая делает общение с искусственным интеллектом реалистичным, но в то же время вызывает дискомфорт у пользователей.

В отличие от стандартных голосовых ассистентов, таких как Siri или Alexa, Sesame AI имитирует живой разговор. У него натуральные интонации и эмоции, есть даже паузы, дыхание и смех. ИИ также делает ошибки и сам себя корректирует, как живой человек. Попробовать пообщаться с ассистентом Sesame AI можно здесь.

Задача стартапа — достичь «голосового присутствия» (voice presence), которое делает взаимодействие с ИИ более человечным, понятным и ценным. Для достижения этой цели CSM использует два компонента: основную модель (backbone) и декодер, основанные на архитектуре Meta Llama.

Модель CSM обучалась на миллионе часов аудиозаписей на английском языке, самая большая из моделей использует 8,3 миллиарда параметров. В отличие от традиционных систем преобразования текста в речь, CSM Sesame интегрирует обработку текста и аудио в единую мультимодальную модель, что позволяет создавать более естественную и контекстуально-осмысленную речь.

В ходе слепых тестов, где слушателям не давали контекст разговора, оценки CSM-генерируемой речи были сопоставимы с оценками реальной человеческой речи. Однако при наличии контекста слушатели по-прежнему отдавали предпочтение человеческой речи.

Реалистичность CSM вызывает опасения по поводу потенциального использования в мошеннических схемах и социальной инженерии. Возможность создавать убедительную человеческую речь может быть использована для фишинга и других видов обмана. В связи с этим OpenAI ранее ограничила распространение своей технологии генерации голоса из-за опасений злоупотребления.

Тем не менее Sesame планирует открыть исходный код ключевых компонентов своей разработки под лицензией Apache 2.0, что позволит другим разработчикам использовать и улучшать эту технологию. В планах компании также масштабирование модели, увеличение объема данных для обучения, расширение языковой поддержки и др.

Пользователи, протестировавшие демоверсию CSM, отмечают как удивительный реализм, так и возникающий дискомфорт. Некоторые даже сообщали об эмоциональной привязанности к ИИ-собеседнику. В то же время другие выражали беспокойство по поводу этических аспектов и потенциальных рисков, связанных с развитием подобных технологий.