Support us

В Bing нашли новый способ сбора качественных данных для обучения ИИ

Оставить комментарий
В Bing нашли новый способ сбора качественных данных для обучения ИИ

Исследователи команды поисковика Bing от Microsoft разработали новый метод сбора высококачественных данных для тренировки моделей машинного обучения. В своём блоге и научной работе команда рассказала о системе, которая способна с впечатляющей точностью различать верно и неверно маркированные данные, пишет VentureBeat.

Иллюстрация: BingДля тренировки алгоритмов нужно собрать сотни тысяч или миллионов выборок данных и рассортировать их. Часто эту задачу упрощают при помощи поисковиков: составляется список категорий, по каждой из них осуществляется веб-поиск и собираются результаты. Но не все они релевантны, а ошибки в датасетах могут привести к погрешностям и неточностям в модели. Один из способов уменьшить последствия неправильной маркировки — обучить второй алгоритм распознавать и исправлять несоответствия, но и он требует интенсивной обработки, так как модель нужно тренировать для каждой категории.

«Получение достаточного количества высококачественных данных для обучения часто является самым затруднительным этапом создания ИИ-сервисов. Обычно данные, маркированные людьми, достаточно качественны (содержат относительно немного ошибок), но это требует больших затрат — как средств, так и времени. С другой стороны, автоматизированные подходы позволяют удешевить создание массивных датасетов, но и допускают больше ошибок», — отмечают исследователи.

Метод исследователей Bing задействует ИИ-модель, которая способна проверять данные на ошибки в реальном времени. Во время тренировки одна часть системы — вектор вложения классов — учится автоматически отбирать изображения, лучше всего подходящие под заданную категорию. Вторая часть модели— вектор вложения запроса — учится вкладывать эталонные изображения в тот же вектор. Система построена так, что в ходе тренировки эти два вектора сходятся, если изображение подпадает под категорию, и расходятся — если нет.

В итоге система выявляет закономерности, с помощью которых находит релевантные изображения по каждой категории, причём её результаты надёжны, даже если маркировка не проверялась человеком. По словам учёных, этот подход можно использовать с равным успехом применять к видео, тексту или речи.

Читайте также
Какие скиллы и профессии выигрывают и проигрывают на технорынке в 2025-2026 году
Какие скиллы и профессии выигрывают и проигрывают на технорынке в 2025-2026 году
Какие скиллы и профессии выигрывают и проигрывают на технорынке в 2025-2026 году
Без джунов всё вымрет. Техлид объясняет, почему искуственный интеллект уничтожает разработку
Без джунов всё вымрет. Техлид объясняет, почему искуственный интеллект уничтожает разработку
Без джунов всё вымрет. Техлид объясняет, почему искуственный интеллект уничтожает разработку
Любите использовать нейросети, когда программируете? Поздравляю, вы помогаете индустрии деградировать.   Расскажу, почему нейросети заменяют джунов и, в то же время, мешают им становиться сеньорами.  
DeepSeek снова открыл год с ноги: новый метод обучении ИИ уже назвали «прорывом»
DeepSeek снова открыл год с ноги: новый метод обучении ИИ уже назвали «прорывом»
DeepSeek снова открыл год с ноги: новый метод обучении ИИ уже назвали «прорывом»
«Ещё никогда так сильно не отставал как программист» — автор «вайб-кодинга»
«Ещё никогда так сильно не отставал как программист» — автор «вайб-кодинга»
«Ещё никогда так сильно не отставал как программист» — автор «вайб-кодинга»

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.