В Китае сделали AI-цензор для фильтрации неугодного контента на базе алгоритма Google. Эффективность — 91%
Специалисты из Шэньянского политехнического университета и Китайской академии наук создали инструмент на основе искусственного интеллекта, который сможет с беспрецедентной точностью обнаруживать «вредную» информацию в сети, пишет South China Morning Post.
Традиционные инструменты для фильтрации контента по ключевым словам достигают не более 70%-ной точности. Благодаря обученным человеком AI-алгоритмам этот показатель за последние годы удалось поднять примерно до 80%. Китайские исследователи заявляют, что их система не требует участия людей — при этом её эффективность зашкаливает за 91%.
Новая технология включает огромную базу «чувствительных» слов и их форм, а также способна «читать между строк», то есть анализировать содержание текстов. Для этого была применена опенсорсная AI-модель BERT от Google, которая, однако, может обрабатывать тексты не более 512 слов и изначально не заточена на цензуру. Поэтому тексты предварительно разбиваются на фрагменты, а после анализа BERT снова компонуются и сверяются со словарём ещё одним AI-компонентом.
Google не ответила на запрос South China Morning Post о комментарии.
Интернет в Китае находится под строгим контролем правительства. Здесь заблокированы сайты Google, Facebook, Twitter, иностранных новостных агентств, а на тех сайтах, которые разрешены, большой процент информации цензурируется. Среди запрещённых в китайском интернет-пространстве тем — порнография, злоупотребление наркотиками, оружие и терроризм. Также нельзя критиковать компартию и её верхушку.
Проблема в том, что ключевые слова могут использоваться в безобидном контексте, а потенциально опасную информацию можно передать без таких слов или добавив дополнительные символы, чтобы обойти фильтры. В Китае действует огромный штат цензоров, которые вручную зачищают такой контент — что довольно дорого и малоэффективно, особенно с учётом того, что его объём в интернете и соцсетях постоянно растёт.
Разработчики говорят, что их технология очень поможет выявлять и скрывать нежелательную информацию в новостных материалах сетевых изданий.
Читать на dev.by