Исследователи Facebook AI Research совместно с коллегами из DeepMind (Google), Вашингтонского и Нью-Йоркского университетов анонсировали SuperGLUE — ряд контрольных задач для оценки производительности мощного современного ИИ для задач понимания естественного языка, пишет VentureBeat.
В качестве эталона производительности учёные использовали модель BERT от Google, которая показывает state-of-the-art результаты по целому набору заданий. SuperGLUE по сложности превосходит бенчмарк General Language Understanding Evaluation (GLUE), выпущенный в прошлом апреле, и должен подстегнуть разработку моделей, способных обрабатывать более тонкие нюансы речи.
Новый бенчмарк включает 8 задач для проверки способности ИИ-систем понимать суть речи, распознавать причинно-следственные связи и давать ответы «да/нет» на вопросы по тестовым фрагментам.
Результаты лучших моделей будут публиковаться на super.gluebenchmark.com. Более подробно о SuperGLUE можно прочитать на arXiv.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.