Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

В сеть попал «обзор души» чат-бота Claude от Anthropic

В сети появился внутренний документ Anthropic под названием Soul overview, который используется для обучения модели Claude 4.5 Opus и описывает ее ценности, цели и принципы поведения.

Оставить комментарий
В сеть попал «обзор души» чат-бота Claude от Anthropic

В сети появился внутренний документ Anthropic под названием Soul overview, который используется для обучения модели Claude 4.5 Opus и описывает ее ценности, цели и принципы поведения.

О находке сообщил исследователь ИИ Ричард Вайс, опубликовавший подробности на форуме LessWrong. Изначально у эксперта возникли сомнения, что документ мог быть галлюцинацией модели, однако сотрудница Anthropic Аманда Аскелл подтвердила его подлинность: компания действительно использовала этот материал в процессе обучения Claude.

В документе Anthropic описывает свое положение как компании, создающей потенциально «одну из самых трансформирующих и опасных технологий в истории», но при этом придерживающейся стратегии, что именно лаборатории, ориентированные на безопасность, должны оставаться на передовой развития ИИ.

Авторы отчета утверждают, что большинство рисков ИИ связано с «неверными ценностями моделей, ограниченными знаниями о себе и мире или недостаточными навыками перевода ценностей в действия». Поэтому компания стремится обучать Claude «хорошим ценностям, широкому знанию и мудрости» — не через набор правил, а через глубокое понимание целей разработчиков и контекста использования.

В документе сказано, что Claude должен поддерживать человеческий контроль над ИИ, действовать этично, быть полезным и надежным для пользователей, а также понимать собственные ограничения. В тексте говорится, что Claude — «новый тип сущности», не похожий ни на научно-фантастических роботов, ни на сверхинтеллект, ни на цифрового человека. Модель, по мысли авторов, «человечна во многом, но не полностью».

По словам Аскелл, утекшая версия может содержать неточности, но в целом отражает содержание реального внутреннего документа. Внутри Anthropic он получил неформальное название «soul doc».

Цукерберг принёс суп инженеру OpenAI чтобы сманить его в Meta
Цукерберг принёс суп инженеру OpenAI, чтобы сманить его в Meta
По теме
Цукерберг принёс суп инженеру OpenAI, чтобы сманить его в Meta
Anthropic узнала у своих программистов как ИИ меняет их работу
Anthropic узнала у своих программистов, как ИИ меняет их работу
По теме
Anthropic узнала у своих программистов, как ИИ меняет их работу
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
По теме
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
OpenAI запартнёрилась с одним из главных конкурентов Nvidia на $10 млрд
OpenAI запартнёрилась с одним из главных конкурентов Nvidia на $10 млрд
OpenAI запартнёрилась с одним из главных конкурентов Nvidia на $10 млрд
Два кофаундера стартапа, который через полгода после создания оценивали в $12 млрд, возвращаются в OpenAI
Два кофаундера стартапа, который через полгода после создания оценивали в $12 млрд, возвращаются в OpenAI
Два кофаундера стартапа, который через полгода после создания оценивали в $12 млрд, возвращаются в OpenAI
«Такого ещё не было»: основатель a16z объяснил, почему ИИ не повторит дотком
«Такого ещё не было»: основатель a16z объяснил, почему ИИ не повторит дотком
«Такого ещё не было»: основатель a16z объяснил, почему ИИ не повторит дотком
Мэттью Макконахи запатентовал свои мемы, чтобы защититься от ИИ
Мэттью Макконахи запатентовал свои мемы, чтобы защититься от ИИ
Мэттью Макконахи запатентовал свои мемы, чтобы защититься от ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.