Николай Чикишев world 12 чэрвеня 2026, 09:47

Anthropic выбачылася за схаваныя абмежаванні Claude і змяніла палітыку пасля крытыкі

Кампанія адмовілася ад спрэчнай палітыкі, якая магла схавана абмяжоўваць працу Claude Fable 5 для даследчыкаў, якія выкарыстоўваюць мадэль пры распрацоўцы іншых ШІ-сістэм.

Пакінуць каментарый

Anthropic выбачылася за схаваныя абмежаванні Claude і змяніла палітыку пасля крытыкі

Кампанія адмовілася ад спрэчнай палітыкі, якая магла схавана абмяжоўваць працу Claude Fable 5 для даследчыкаў, якія выкарыстоўваюць мадэль пры распрацоўцы іншых ШІ-сістэм.

Claude Fable 5 — першая агульнадаступная мадэль Anthropic узроўню Mythos, але з дадатковымі ахоўнымі абмежаваннямі. Частка абмежаванняў датычылася відавочна рызыкоўных галінаў, у тым ліку кібербяспекі, біялогіі і хіміі. У такіх выпадках Anthropic можа перанакіроўваць запыты на менш магутную мадэль.

Аднак для запытаў, звязаных з распрацоўкай перадавых мадэляў, кампанія першапачаткова выбрала іншы механізм: Claude магла незаўважна пагаршаць якасць адказаў. Карыстальнік пры гэтым не бачыў бы, што спрацавала абмежаванне.

Крытыкі палічылі такі падыход схаваным умяшаннем у працу даследчыкаў. На іхную думку, гэта магло перашкодзіць распрацоўцы канкуруючых мадэляў, а таксама праектам у галіне адкрытага ШІ і бяспекі мадэляў.

Пасля абмеркавання Anthropic прызнала памылку. «Мы мяняем ахоўныя механізмы Fable 5 для распрацоўкі францірных LLM, каб яны былі бачнымі. Мы выбралі няправільны кампраміс і выбачаемся за тое, што не знайшлі правільны баланс», — заявіла кампанія.

Anthropic выпустила Claude Fable 5 — публичную версию нашумевшей Mythos

Цяпер, калі Anthropic вырашыць, што карыстальнік спрабуе выкарыстаць Claude Fable 5 для распрацоўкі магутнай ШІ-мадэлі, сістэма павінна будзе відавочна паведаміць пра адмову або перанакіраванне запыту на менш магутную мадэль.

Адзін з галоўных аргументаў крытыкаў заключаўся ў тым, што схаванае пагаршэнне працы мадэлі пакідала даследчыкаў у няведанні. Яны маглі не разумець, ці парушаюць правілы Anthropic, чаму мадэль горш спраўляецца з задачай і ці можна давяраць вынікам.

«Схавана пагаршаць прадукцыйнасць у ML-даследаваннях без папярэджання карыстальніка — шакуюча варожа і выглядае жахліва», — напісаў у X Дзін Бол, старшы навуковы супрацоўнік Foundation for American Innovation і былы дарадца Белага дома па ШІ.

Даследчык Уіл Браўн з ШІ-стартапу Prime Intellect заявіў, што палітыка выглядала так, быццам Anthropic лічыць толькі сябе вартай займацца прасунутымі даследаваннямі ШІ. На ягоную думку, гэта нагадвала сітуацыю, у якой кампанія «падцягвае лесвіцу за сабой».