Голосовой ИИ от Sesame настолько реалистичный, что пугает пользователей
Стартап Sesame AI представил новую модель Conversational Speech Model (CSM), которая делает общение с искусственным интеллектом реалистичным, но в то же время вызывает дискомфорт у пользователей.
Стартап Sesame AI представил новую модель Conversational Speech Model (CSM), которая делает общение с искусственным интеллектом реалистичным, но в то же время вызывает дискомфорт у пользователей.
В отличие от стандартных голосовых ассистентов, таких как Siri или Alexa, Sesame AI имитирует живой разговор. У него натуральные интонации и эмоции, есть даже паузы, дыхание и смех. ИИ также делает ошибки и сам себя корректирует, как живой человек. Попробовать пообщаться с ассистентом Sesame AI можно здесь.
Задача стартапа — достичь «голосового присутствия» (voice presence), которое делает взаимодействие с ИИ более человечным, понятным и ценным. Для достижения этой цели CSM использует два компонента: основную модель (backbone) и декодер, основанные на архитектуре Meta Llama.
Модель CSM обучалась на миллионе часов аудиозаписей на английском языке, самая большая из моделей использует 8,3 миллиарда параметров. В отличие от традиционных систем преобразования текста в речь, CSM Sesame интегрирует обработку текста и аудио в единую мультимодальную модель, что позволяет создавать более естественную и контекстуально-осмысленную речь.
В ходе слепых тестов, где слушателям не давали контекст разговора, оценки CSM-генерируемой речи были сопоставимы с оценками реальной человеческой речи. Однако при наличии контекста слушатели по-прежнему отдавали предпочтение человеческой речи.
Реалистичность CSM вызывает опасения по поводу потенциального использования в мошеннических схемах и социальной инженерии. Возможность создавать убедительную человеческую речь может быть использована для фишинга и других видов обмана. В связи с этим OpenAI ранее ограничила распространение своей технологии генерации голоса из-за опасений злоупотребления.
Тем не менее Sesame планирует открыть исходный код ключевых компонентов своей разработки под лицензией Apache 2.0, что позволит другим разработчикам использовать и улучшать эту технологию. В планах компании также масштабирование модели, увеличение объема данных для обучения, расширение языковой поддержки и др.
Пользователи, протестировавшие демоверсию CSM, отмечают как удивительный реализм, так и возникающий дискомфорт. Некоторые даже сообщали об эмоциональной привязанности к ИИ-собеседнику. В то же время другие выражали беспокойство по поводу этических аспектов и потенциальных рисков, связанных с развитием подобных технологий.
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.