Microsoft изъяла из доступа массивный датасет для распознавания лиц, который содержал более 10 млн изображений примерно 100 тысяч людей. Возможной причиной стало применение Китаем для ущемления этнических меньшинств, пишет Gizmodo.
Изображения были агрегированы через поисковые движки и собраны в датасет MS Celeb, опубликованный в 2016 году. Это был крупнейший публичный датасет и ранее использовался в ИИ-проекте по распознаванию знаменитостей, но помимо этого в коллекции присутствовали фото многих людей, которые не давали согласие на их использование.
«Сайт предназначался для научных целей. Его курировал сотрудник, который больше не работает в Microsoft, поэтому сайт закрыт», — сообщила Microsoft изданию Financial Times.
Датасет использовался для тренировки систем распознавания лиц по всему миру, в том числе военными исследователями и такими компаниями, как IBM, Panasonic, Alibaba, Nvidia и Hitachi, а также китайскими Sensetime и Megvii. Последние сотрудничают с правительством страны, где распознавание лиц и искусственный интеллект применяют для подавления некоторых этнических меньшинств, например уйгуров или мусульман. Их системы SenseTotem, SenseFace и Face++ используются различными подразделениями полиции Китая. Обе компании утверждают, что им не было известно об использовании их технологий для расового профилирования.
Некоторые исследователи считают, что Microsoft потеряла контроль над тем, в чьи руки попадает датасет. Согласно MegaPixel, активнее всего MS Celeb использует Китай.
Microsoft выступает против применения технологии распознавания лиц в целях слежки за населением и даже призывала к её регулированию. В апреле компания отказала одному из правительственных агентств в установке технологии в полицейских машинах и нательных камерах.
Впрочем, датасет останется доступным для компаний или научных организаций, которые ранее скачали датасет из открытых источников.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.