Anthropic извинилась за скрытые ограничения Claude Fable 5 и изменила политику после критики
Компания отказалась от спорной политики, которая могла скрытно ограничивать работу Claude Fable 5 для исследователей, использующих модель при разработке других ИИ-систем.
Компания отказалась от спорной политики, которая могла скрытно ограничивать работу Claude Fable 5 для исследователей, использующих модель при разработке других ИИ-систем.
Claude Fable 5 — первая общедоступная модель Anthropic уровня Mythos, но с дополнительными защитными ограничениями. Часть ограничений касалась очевидно рискованных областей, в том числе кибербезопасности, биологии и химии. В таких случаях Anthropic может перенаправлять запросы на менее мощную модель.
Однако для запросов, связанных с разработкой передовых моделей, компания изначально выбрала другой механизм: Claude могла незаметно ухудшать качество ответов. Пользователь при этом не видел бы, что сработало ограничение.
Критики сочли такой подход скрытым вмешательством в работу исследователей. По их мнению, это могло помешать разработке конкурирующих моделей, а также проектам в области открытого ИИ и безопасности моделей.
После обсуждения Anthropic признала ошибку. «Мы меняем защитные механизмы Fable 5 для разработки фронтирных LLM, чтобы они были видимыми. Мы выбрали неправильный компромисс и извиняемся за то, что не нашли правильный баланс», — заявила компания.
Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos
Теперь, если Anthropic решит, что пользователь пытается применить Claude Fable 5 для разработки мощной ИИ-модели, система должна будет явно сообщить об отказе или перенаправлении запроса на менее мощную модель.
Один из главных аргументов критиков заключался в том, что скрытое ухудшение работы модели оставляло исследователей в неведении. Они могли не понимать, нарушают ли правила Anthropic, почему модель хуже справляется с задачей и можно ли доверять результатам.
«Скрыто ухудшать производительность в ML-исследованиях без предупреждения пользователя — шокирующе враждебно и выглядит ужасно», — написал в X Дин Болл, старший научный сотрудник Foundation for American Innovation и бывший советник Белого дома по ИИ.
Исследователь Уилл Браун из ИИ-стартапа Prime Intellect заявил, что политика выглядела так, будто Anthropic считает только себя вправе заниматься продвинутыми исследованиями ИИ. По его словам, это напоминало ситуацию, в которой компания «подтягивает лестницу за собой».
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.