Исследователи Google опубликовали датасет Schema-Guided Dialogue (SGD) — крупнейший из находящихся в открытом доступе набор диалогов, разбитых по тематикам, пишет VentureBeat.
По словам исследователей, сегодня происходит интеграция голосовых ассистентов вроде Google Assistant со всё новыми сервисами в самых разнообразных сферах деятельности. Датасет должен способствовать обучению систем, способных поддерживать эти сервисы без необходимости дополнительно собирать данные или заново тренировать модель, а также снижению затрат на их дальнейшее развитие.
SGD содержит 18 тысяч проблемно-ориентированных размеченных диалогов между людьми и виртуальным ассистентом и может применяться для таких задач, как прогнозирование интентов пользователя, парсинг семантики, анализ диалога, синтез речи и других. Диалоги представлены по 17 различным темам, включая СМИ, банки, мероприятия, календарь, путешествия и погоду. Как отмечают авторы, это первый датасет, охватывающий такое количество областей и имеющий по нескольку API для каждой из них.
Подробно о SGD можно узнать в блоге Google. Исследовательская работа представлена на arXiv, исходный код доступен на GitHub.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.