Отдел новостей 4 февраля 2019, 09:10

Google выпустила датасет, который учит ИИ распознавать фальшивые аудиозаписи

Новый датасет от Google облегчает обучение ИИ-моделей распознавать поддельные аудиозаписи, созданные другими ИИ-моделями, чтобы обманывать системы идентификации по голосу, сообщает VentureBeat.

Команды Google News и Google AI совместно выпустили базу из тысяч фрагментов текста, начитанных синтезаторами речи. Материал брали из англоязычных новостных изданий, а озвучивали его 68 различных голосов на различных акцентах.

Датасет доступен участникам соревнования ASVspoof 2019, цель которого — способствовать разработке методов защиты от поддельных речевых записей, в том числе систем, умеющих различать настоящий человеческий голос и сгенерированный компьютером.

Как отметили в Google AI, современные алгоритмы способны достаточно правдоподобно имитировать человеческую речь. Наряду с преимуществами этого прогресса, есть риск того, что модели могут быть использованы во вред. Именно эту проблему призван решить новый датасет.

В прошлом году исследователи научили искусственный интеллект распознавать фальшивые порнографические ролики deepflakes. Система выявляет их по неестественному морганию участников видеозаписей.