🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Вышел новый бенчмарк SuperGLUE в области понимания языка

Оставить комментарий
Вышел новый бенчмарк SuperGLUE в области понимания языка

Исследователи Facebook AI Research совместно с коллегами из DeepMind (Google), Вашингтонского и Нью-Йоркского университетов анонсировали SuperGLUE — ряд контрольных задач для оценки производительности мощного современного ИИ для задач понимания естественного языка, пишет VentureBeat.

В качестве эталона производительности учёные использовали модель BERT от Google, которая показывает state-of-the-art результаты по целому набору заданий. SuperGLUE по сложности превосходит бенчмарк General Language Understanding Evaluation (GLUE), выпущенный в прошлом апреле, и должен подстегнуть разработку моделей, способных обрабатывать более тонкие нюансы речи.

Новый бенчмарк включает 8 задач для проверки способности ИИ-систем понимать суть речи, распознавать причинно-следственные связи и давать ответы «да/нет» на вопросы по тестовым фрагментам.

Результаты лучших моделей будут публиковаться на super.gluebenchmark.com. Более подробно о SuperGLUE можно прочитать на arXiv.

Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
«Это когнитивное ядерное оружие»: стартапер призвала ввести налог на вред от ИИ
«Это когнитивное ядерное оружие»: стартапер призвала ввести налог на вред от ИИ
«Это когнитивное ядерное оружие»: стартапер призвала ввести налог на вред от ИИ
2 комментария
DeepSeek представила новую ИИ-модель — почти уровня OpenAI и Google
DeepSeek представила новую ИИ-модель — почти уровня OpenAI и Google
DeepSeek представила новую ИИ-модель — почти уровня OpenAI и Google
1 комментарий
Хороший код больше не важен? Почему разработка катится не туда — мнение техлида
Хороший код больше не важен? Почему разработка катится не туда — мнение техлида
Хороший код больше не важен? Почему разработка катится не туда — мнение техлида
Я посмотрел слитые исходники Claude Code — и увидел там не просто плохой код. Это симптом того, что ИТ-индустрия свернула не туда. Мы выбираем слушать самых громких, и не всегда самых компетентных людей.  Объясняю, почему логика «главное, чтобы работало и приносило деньги» опасна для разработки. И почему LLM не отменяют требований к качеству кода.
23 комментария
Разработчики говорят, что следить за ИИ стало второй работой
Разработчики говорят, что следить за ИИ стало второй работой
Разработчики говорят, что следить за ИИ стало второй работой

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.