В сеть попал «обзор души» чат-бота Claude от Anthropic

В сети появился внутренний документ Anthropic под названием Soul overview, который используется для обучения модели Claude 4.5 Opus и описывает ее ценности, цели и принципы поведения.

Оставить комментарий

О находке сообщил исследователь ИИ Ричард Вайс, опубликовавший подробности на форуме LessWrong. Изначально у эксперта возникли сомнения, что документ мог быть галлюцинацией модели, однако сотрудница Anthropic Аманда Аскелл подтвердила его подлинность: компания действительно использовала этот материал в процессе обучения Claude.

В документе Anthropic описывает свое положение как компании, создающей потенциально «одну из самых трансформирующих и опасных технологий в истории», но при этом придерживающейся стратегии, что именно лаборатории, ориентированные на безопасность, должны оставаться на передовой развития ИИ.

Авторы отчета утверждают, что большинство рисков ИИ связано с «неверными ценностями моделей, ограниченными знаниями о себе и мире или недостаточными навыками перевода ценностей в действия». Поэтому компания стремится обучать Claude «хорошим ценностям, широкому знанию и мудрости» — не через набор правил, а через глубокое понимание целей разработчиков и контекста использования.

В документе сказано, что Claude должен поддерживать человеческий контроль над ИИ, действовать этично, быть полезным и надежным для пользователей, а также понимать собственные ограничения. В тексте говорится, что Claude — «новый тип сущности», не похожий ни на научно-фантастических роботов, ни на сверхинтеллект, ни на цифрового человека. Модель, по мысли авторов, «человечна во многом, но не полностью».

По словам Аскелл, утекшая версия может содержать неточности, но в целом отражает содержание реального внутреннего документа. Внутри Anthropic он получил неформальное название «soul doc».

Цукерберг принёс суп инженеру OpenAI, чтобы сманить его в Meta
По теме
Цукерберг принёс суп инженеру OpenAI, чтобы сманить его в Meta
Anthropic узнала у своих программистов, как ИИ меняет их работу
По теме
Anthropic узнала у своих программистов, как ИИ меняет их работу
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
По теме
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился

Читать на dev.by