Читатели в 🇵🇱, пожалуйста, поддержите dev.by своими налогами! Это просто и ничего не стоит
Support us

Голосовой ИИ от Sesame настолько реалистичный, что пугает пользователей

Стартап Sesame AI представил новую модель Conversational Speech Model (CSM), которая делает общение с искусственным интеллектом реалистичным, но в то же время вызывает дискомфорт у пользователей.

Оставить комментарий
Голосовой ИИ от Sesame настолько реалистичный, что пугает пользователей

Стартап Sesame AI представил новую модель Conversational Speech Model (CSM), которая делает общение с искусственным интеллектом реалистичным, но в то же время вызывает дискомфорт у пользователей.

В отличие от стандартных голосовых ассистентов, таких как Siri или Alexa, Sesame AI имитирует живой разговор. У него натуральные интонации и эмоции, есть даже паузы, дыхание и смех. ИИ также делает ошибки и сам себя корректирует, как живой человек. Попробовать пообщаться с ассистентом Sesame AI можно здесь.

Задача стартапа — достичь «голосового присутствия» (voice presence), которое делает взаимодействие с ИИ более человечным, понятным и ценным. Для достижения этой цели CSM использует два компонента: основную модель (backbone) и декодер, основанные на архитектуре Meta Llama.

Модель CSM обучалась на миллионе часов аудиозаписей на английском языке, самая большая из моделей использует 8,3 миллиарда параметров. В отличие от традиционных систем преобразования текста в речь, CSM Sesame интегрирует обработку текста и аудио в единую мультимодальную модель, что позволяет создавать более естественную и контекстуально-осмысленную речь.

В ходе слепых тестов, где слушателям не давали контекст разговора, оценки CSM-генерируемой речи были сопоставимы с оценками реальной человеческой речи. Однако при наличии контекста слушатели по-прежнему отдавали предпочтение человеческой речи.

Реалистичность CSM вызывает опасения по поводу потенциального использования в мошеннических схемах и социальной инженерии. Возможность создавать убедительную человеческую речь может быть использована для фишинга и других видов обмана. В связи с этим OpenAI ранее ограничила распространение своей технологии генерации голоса из-за опасений злоупотребления.

Тем не менее Sesame планирует открыть исходный код ключевых компонентов своей разработки под лицензией Apache 2.0, что позволит другим разработчикам использовать и улучшать эту технологию. В планах компании также масштабирование модели, увеличение объема данных для обучения, расширение языковой поддержки и др.

Пользователи, протестировавшие демоверсию CSM, отмечают как удивительный реализм, так и возникающий дискомфорт. Некоторые даже сообщали об эмоциональной привязанности к ИИ-собеседнику. В то же время другие выражали беспокойство по поводу этических аспектов и потенциальных рисков, связанных с развитием подобных технологий.

Opera показала ИИ-агента который работает автономно в самом браузере
Opera показала ИИ-агента, который работает автономно в самом браузере
По теме
Opera показала ИИ-агента, который работает автономно в самом браузере
Исследователи используют игру Super Mario для оценки уровня ИИ
Исследователи используют игру Super Mario для оценки уровня ИИ 
По теме
Исследователи используют игру Super Mario для оценки уровня ИИ
Apple никак не может запустить ИИ-версию Siri — полный релиз откладывается
Apple никак не может запустить ИИ-версию Siri — полный релиз откладывается
По теме
Apple никак не может запустить ИИ-версию Siri — полный релиз откладывается
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.