Дапамажыце dev.by 🤍
Падтрымаць

В Bing нашли новый способ сбора качественных данных для обучения ИИ

Пакінуць каментарый
В Bing нашли новый способ сбора качественных данных для обучения ИИ

Исследователи команды поисковика Bing от Microsoft разработали новый метод сбора высококачественных данных для тренировки моделей машинного обучения. В своём блоге и научной работе команда рассказала о системе, которая способна с впечатляющей точностью различать верно и неверно маркированные данные, пишет VentureBeat.

Иллюстрация: BingДля тренировки алгоритмов нужно собрать сотни тысяч или миллионов выборок данных и рассортировать их. Часто эту задачу упрощают при помощи поисковиков: составляется список категорий, по каждой из них осуществляется веб-поиск и собираются результаты. Но не все они релевантны, а ошибки в датасетах могут привести к погрешностям и неточностям в модели. Один из способов уменьшить последствия неправильной маркировки — обучить второй алгоритм распознавать и исправлять несоответствия, но и он требует интенсивной обработки, так как модель нужно тренировать для каждой категории.

«Получение достаточного количества высококачественных данных для обучения часто является самым затруднительным этапом создания ИИ-сервисов. Обычно данные, маркированные людьми, достаточно качественны (содержат относительно немного ошибок), но это требует больших затрат — как средств, так и времени. С другой стороны, автоматизированные подходы позволяют удешевить создание массивных датасетов, но и допускают больше ошибок», — отмечают исследователи.

Метод исследователей Bing задействует ИИ-модель, которая способна проверять данные на ошибки в реальном времени. Во время тренировки одна часть системы — вектор вложения классов — учится автоматически отбирать изображения, лучше всего подходящие под заданную категорию. Вторая часть модели— вектор вложения запроса — учится вкладывать эталонные изображения в тот же вектор. Система построена так, что в ходе тренировки эти два вектора сходятся, если изображение подпадает под категорию, и расходятся — если нет.

В итоге система выявляет закономерности, с помощью которых находит релевантные изображения по каждой категории, причём её результаты надёжны, даже если маркировка не проверялась человеком. По словам учёных, этот подход можно использовать с равным успехом применять к видео, тексту или речи.

Чытайце таксама
Якія скілы і прафесіі перамагаюць і прайграюць на тэхнарынку ў 2025-2026 годзе
Якія скілы і прафесіі перамагаюць і прайграюць на тэхнарынку ў 2025-2026 годзе
Якія скілы і прафесіі перамагаюць і прайграюць на тэхнарынку ў 2025-2026 годзе
DeepSeek зноў адчыніў год з нагі: новы метад навучання ШІ ужо назвалі «прарывам»
DeepSeek зноў адчыніў год з нагі: новы метад навучання ШІ ужо назвалі «прарывам»
DeepSeek зноў адчыніў год з нагі: новы метад навучання ШІ ужо назвалі «прарывам»
«Ніколі не адчуваў сябе настолькі далёка пазаду як праграміст» — аўтар «вайб-кодынгу»
«Ніколі не адчуваў сябе настолькі далёка пазаду як праграміст» — аўтар «вайб-кодынгу»
«Ніколі не адчуваў сябе настолькі далёка пазаду як праграміст» — аўтар «вайб-кодынгу»
10 галоўных падзей са свету ІТ — вынікі 2025
10 галоўных падзей са свету ІТ — вынікі 2025
10 галоўных падзей са свету ІТ — вынікі 2025
Мінулы год стаў пераломным для ІТ: штучны інтэлект выйшаў за межы лабараторый і пачаў змяняць рынак працы, інфраструктуру і медыя-асяроддзе. Мы ўзгадалі самыя яскравыя і значныя падзеі ІТ-індустрыі, пра якія пісалі ў гэтым годзе.

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.