Реклама в Telegram-каналах DzikPic и dev.by теперь дешевле. Узнать подробности 👨🏻‍💻
Support us

В Bing нашли новый способ сбора качественных данных для обучения ИИ

Оставить комментарий
В Bing нашли новый способ сбора качественных данных для обучения ИИ

Исследователи команды поисковика Bing от Microsoft разработали новый метод сбора высококачественных данных для тренировки моделей машинного обучения. В своём блоге и научной работе команда рассказала о системе, которая способна с впечатляющей точностью различать верно и неверно маркированные данные, пишет VentureBeat.

Иллюстрация: BingДля тренировки алгоритмов нужно собрать сотни тысяч или миллионов выборок данных и рассортировать их. Часто эту задачу упрощают при помощи поисковиков: составляется список категорий, по каждой из них осуществляется веб-поиск и собираются результаты. Но не все они релевантны, а ошибки в датасетах могут привести к погрешностям и неточностям в модели. Один из способов уменьшить последствия неправильной маркировки — обучить второй алгоритм распознавать и исправлять несоответствия, но и он требует интенсивной обработки, так как модель нужно тренировать для каждой категории.

«Получение достаточного количества высококачественных данных для обучения часто является самым затруднительным этапом создания ИИ-сервисов. Обычно данные, маркированные людьми, достаточно качественны (содержат относительно немного ошибок), но это требует больших затрат — как средств, так и времени. С другой стороны, автоматизированные подходы позволяют удешевить создание массивных датасетов, но и допускают больше ошибок», — отмечают исследователи.

Метод исследователей Bing задействует ИИ-модель, которая способна проверять данные на ошибки в реальном времени. Во время тренировки одна часть системы — вектор вложения классов — учится автоматически отбирать изображения, лучше всего подходящие под заданную категорию. Вторая часть модели— вектор вложения запроса — учится вкладывать эталонные изображения в тот же вектор. Система построена так, что в ходе тренировки эти два вектора сходятся, если изображение подпадает под категорию, и расходятся — если нет.

В итоге система выявляет закономерности, с помощью которых находит релевантные изображения по каждой категории, причём её результаты надёжны, даже если маркировка не проверялась человеком. По словам учёных, этот подход можно использовать с равным успехом применять к видео, тексту или речи.

Новый рекламный формат в наших телеграм-каналах.

Купить 500 символов за $150

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Bubble
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.