В данных для обучения нейросети Google нашли изображения сексуального насилия над детьми
Исследователи из Стэнфордского университета нашли в наборе данных для обучения Stable Diffusion и Google Imagen сотни ссылок на материалы сексуального насилия над детьми.
Исследователи из Стэнфордского университета нашли в наборе данных для обучения Stable Diffusion и Google Imagen сотни ссылок на материалы сексуального насилия над детьми.
Ученые анализировали набор данных LAION-5B, пытаясь найти незаконные материалы. Для этого они отправляли хеши или идентификаторы изображений на платформы обнаружения CSAM (Child Sexual Abuse Material), таких как PhotoDNA или в Канадский центр защиты детей. Исследователи выяснили, что набор содержит по меньшей мере 1679 нелегальных изображений, взятых из постов в соцсетях и популярных сайтов для взрослых.
Авторы отчета отметили, что наличие в наборе данных CSAM не обязательно негативно повлияет на результаты обученных моделей. Однако остается вероятность, что модель использует что-то из незаконных материалов при генерации изображений. На это влияет наличие повторяющихся идентичных случаев CSAM — это увеличивает вероятность генерации изображения конкретных жертв.
Организация LAION, которая управляет набором данных, заявила, что временно удалит наборы данных из сети. В организации подчеркнули, что набор не является непосредственно репозиторием изображений, а представляет результат индексирования ресурсов интернета и содержит ссылки на изображения и замещающий текст. Иными словами, при использовании набора нельзя непосредственно увидеть незаконные материалы.
В Stability AI отметили, что компания использовала лишь часть материалов из набора LAION-5B, при этом они отбирались с учетом безопасности. Google выпустила новую версию Imagen, однако не раскрыла подробности, на каком наборе модель обучалась. По мнению экспертов, проблемный контент будет сложно удалить из всех моделей ИИ, которые обучались на этом наборе. Одно из решений проблемы — подождать, пока обученные модели устареют и распространение незаконного контента прекратится.
«Наем в польском Google сломан». Прошел собесы — и застрял (похоже, навсегда)
Уже почти год как Михаил пытается попасть в варшавский офис Google. Он прошел все этапы и встал «в очередь» из успешных кандидатов. Осталось дождаться подходящей вакансии и понравиться менеджеру на 30-минутном звонке. И тут оказалось, что не все так просто.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.