Новый датасет от Google облегчает обучение ИИ-моделей распознавать поддельные аудиозаписи, созданные другими ИИ-моделями, чтобы обманывать системы идентификации по голосу, сообщает VentureBeat.
Команды Google News и Google AI совместно выпустили базу из тысяч фрагментов текста, начитанных синтезаторами речи. Материал брали из англоязычных новостных изданий, а озвучивали его 68 различных голосов на различных акцентах.
Датасет доступен участникам соревнования ASVspoof 2019, цель которого — способствовать разработке методов защиты от поддельных речевых записей, в том числе систем, умеющих различать настоящий человеческий голос и сгенерированный компьютером.
Как отметили в Google AI, современные алгоритмы способны достаточно правдоподобно имитировать человеческую речь. Наряду с преимуществами этого прогресса, есть риск того, что модели могут быть использованы во вред. Именно эту проблему призван решить новый датасет.
В прошлом году исследователи научили искусственный интеллект распознавать фальшивые порнографические ролики deepflakes. Система выявляет их по неестественному морганию участников видеозаписей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.