В сеть попал «обзор души» чат-бота Claude от Anthropic
В сети появился внутренний документ Anthropic под названием Soul overview, который используется для обучения модели Claude 4.5 Opus и описывает ее ценности, цели и принципы поведения.
В сети появился внутренний документ Anthropic под названием Soul overview, который используется для обучения модели Claude 4.5 Opus и описывает ее ценности, цели и принципы поведения.
В сети появился внутренний документ Anthropic под названием Soul overview, который используется для обучения модели Claude 4.5 Opus и описывает ее ценности, цели и принципы поведения.
О находке сообщил исследователь ИИ Ричард Вайс, опубликовавший подробности на форуме LessWrong. Изначально у эксперта возникли сомнения, что документ мог быть галлюцинацией модели, однако сотрудница Anthropic Аманда Аскелл подтвердила его подлинность: компания действительно использовала этот материал в процессе обучения Claude.
В документе Anthropic описывает свое положение как компании, создающей потенциально «одну из самых трансформирующих и опасных технологий в истории», но при этом придерживающейся стратегии, что именно лаборатории, ориентированные на безопасность, должны оставаться на передовой развития ИИ.
Авторы отчета утверждают, что большинство рисков ИИ связано с «неверными ценностями моделей, ограниченными знаниями о себе и мире или недостаточными навыками перевода ценностей в действия». Поэтому компания стремится обучать Claude «хорошим ценностям, широкому знанию и мудрости» — не через набор правил, а через глубокое понимание целей разработчиков и контекста использования.
В документе сказано, что Claude должен поддерживать человеческий контроль над ИИ, действовать этично, быть полезным и надежным для пользователей, а также понимать собственные ограничения. В тексте говорится, что Claude — «новый тип сущности», не похожий ни на научно-фантастических роботов, ни на сверхинтеллект, ни на цифрового человека. Модель, по мысли авторов, «человечна во многом, но не полностью».
По словам Аскелл, утекшая версия может содержать неточности, но в целом отражает содержание реального внутреннего документа. Внутри Anthropic он получил неформальное название «soul doc».



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.