Дапамажыце dev.by 🤍
Падтрымаць

В Bing нашли новый способ сбора качественных данных для обучения ИИ

Пакінуць каментарый
В Bing нашли новый способ сбора качественных данных для обучения ИИ

Исследователи команды поисковика Bing от Microsoft разработали новый метод сбора высококачественных данных для тренировки моделей машинного обучения. В своём блоге и научной работе команда рассказала о системе, которая способна с впечатляющей точностью различать верно и неверно маркированные данные, пишет VentureBeat.

Иллюстрация: BingДля тренировки алгоритмов нужно собрать сотни тысяч или миллионов выборок данных и рассортировать их. Часто эту задачу упрощают при помощи поисковиков: составляется список категорий, по каждой из них осуществляется веб-поиск и собираются результаты. Но не все они релевантны, а ошибки в датасетах могут привести к погрешностям и неточностям в модели. Один из способов уменьшить последствия неправильной маркировки — обучить второй алгоритм распознавать и исправлять несоответствия, но и он требует интенсивной обработки, так как модель нужно тренировать для каждой категории.

«Получение достаточного количества высококачественных данных для обучения часто является самым затруднительным этапом создания ИИ-сервисов. Обычно данные, маркированные людьми, достаточно качественны (содержат относительно немного ошибок), но это требует больших затрат — как средств, так и времени. С другой стороны, автоматизированные подходы позволяют удешевить создание массивных датасетов, но и допускают больше ошибок», — отмечают исследователи.

Метод исследователей Bing задействует ИИ-модель, которая способна проверять данные на ошибки в реальном времени. Во время тренировки одна часть системы — вектор вложения классов — учится автоматически отбирать изображения, лучше всего подходящие под заданную категорию. Вторая часть модели— вектор вложения запроса — учится вкладывать эталонные изображения в тот же вектор. Система построена так, что в ходе тренировки эти два вектора сходятся, если изображение подпадает под категорию, и расходятся — если нет.

В итоге система выявляет закономерности, с помощью которых находит релевантные изображения по каждой категории, причём её результаты надёжны, даже если маркировка не проверялась человеком. По словам учёных, этот подход можно использовать с равным успехом применять к видео, тексту или речи.

Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.