Ещё больше цензуры: власти Китая теперь проверяют ИИ-модели на соответствие социалистическим ценностям
Большие языковые модели китайских ИИ-компаний должны «воплощать социалистические ценности» — как пишет Financial Times, за этим следит правительство страны.
Принудительные проверки уже прошли ИИ-разработки различных техногигантов и стартапов, например ByteDance, Alibaba, Moonshot и 01.AI. Модели прогоняют по списку вопросов, многие из которых связаны с политикой и личностью Си Цзиньпина, и оценивают их ответы.
Тестированием моделей, а также анализом обучающих датасетов и другими процедурами исследования безопасности моделей занимаются чиновники из локальных подразделений Государственной канцелярии интернет-информации (CAC) Китая — центрального органа цензуры и регулирования интернета. По рассказу сотрудника одной ИИ-компании из города Ханчжоу, к ним в офис специально пришла ответственная за это команда и выполняла аудит в конференц-зале. С первого раза получить одобрение не получилось, но что было не так, компании не объяснили — пришлось идти расспрашивать коллег. Вторая попытка спустя несколько месяцев увенчалась успехом.
Из-за давления властей китайским ИИ-разработчикам приходится быстро учиться цензурировать свои LLM. Это нелегко, поскольку модели тренируют на больших массивах англоязычного контента, и они могут получаться очень несдержанными в ответах, говорит сотрудник одного пекинского ИИ-стартапа.
Фильтрация начинается с удаления потенциально проблемной информации из обучающего набора и составления базы чувствительных ключевых слов. В феврале китайским ИИ-компаниям было предписано собирать тысячи слов и вопросов, которые противоречат «важнейшим социалистическим ценностям» — речь, например, о «подстрекательстве к свержению государственной власти» и «подрыве национального единства». Эти списки должны обновляться каждую неделю. Чат-боты на основе китайских ИИ-моделей блокируют запросы по нежелательным темам: просят пользователей спросить что-нибудь другое или говорят, что не знают ответ.
При этом у CAC есть лимит по количеству вопросов, на которые модель может отказаться отвечать в ходе проверки на безвредность — не более 5%. Некоторые разработчики закладывают в своих ботов полный игнор вопросов о Си, чтобы избежать проблем. Но контролировать ответы ботов всё равно очень сложно, поэтому некоторые их ответы удаляются и заменяются в режиме реального времени при помощи дополнительных моделей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Больше Чебурнета! Ещё больше Чебурнета! [слышен безумный гомерический смех с повизгиванием]
А как там кстати с тик-током в демократическом США дела обстоят? Или это другое?)
Не, они только оценки не могут ставить