Anthropic выбачылася за схаваныя абмежаванні Claude і змяніла палітыку пасля крытыкі
Кампанія адмовілася ад спрэчнай палітыкі, якая магла схавана абмяжоўваць працу Claude Fable 5 для даследчыкаў, якія выкарыстоўваюць мадэль пры распрацоўцы іншых ШІ-сістэм.
Кампанія адмовілася ад спрэчнай палітыкі, якая магла схавана абмяжоўваць працу Claude Fable 5 для даследчыкаў, якія выкарыстоўваюць мадэль пры распрацоўцы іншых ШІ-сістэм.
Claude Fable 5 — першая агульнадаступная мадэль Anthropic узроўню Mythos, але з дадатковымі ахоўнымі абмежаваннямі. Частка абмежаванняў датычылася відавочна рызыкоўных галінаў, у тым ліку кібербяспекі, біялогіі і хіміі. У такіх выпадках Anthropic можа перанакіроўваць запыты на менш магутную мадэль.
Аднак для запытаў, звязаных з распрацоўкай перадавых мадэляў, кампанія першапачаткова выбрала іншы механізм: Claude магла незаўважна пагаршаць якасць адказаў. Карыстальнік пры гэтым не бачыў бы, што спрацавала абмежаванне.
Крытыкі палічылі такі падыход схаваным умяшаннем у працу даследчыкаў. На іхную думку, гэта магло перашкодзіць распрацоўцы канкуруючых мадэляў, а таксама праектам у галіне адкрытага ШІ і бяспекі мадэляў.
Пасля абмеркавання Anthropic прызнала памылку. «Мы мяняем ахоўныя механізмы Fable 5 для распрацоўкі францірных LLM, каб яны былі бачнымі. Мы выбралі няправільны кампраміс і выбачаемся за тое, што не знайшлі правільны баланс», — заявіла кампанія.
Anthropic выпусціла Claude Fable 5 — публічную версію нашумелай Mythos
Цяпер, калі Anthropic вырашыць, што карыстальнік спрабуе выкарыстаць Claude Fable 5 для распрацоўкі магутнай ШІ-мадэлі, сістэма павінна будзе відавочна паведаміць пра адмову або перанакіраванне запыту на менш магутную мадэль.
Адзін з галоўных аргументаў крытыкаў заключаўся ў тым, што схаванае пагаршэнне працы мадэлі пакідала даследчыкаў у няведанні. Яны маглі не разумець, ці парушаюць правілы Anthropic, чаму мадэль горш спраўляецца з задачай і ці можна давяраць вынікам.
«Схавана пагаршаць прадукцыйнасць у ML-даследаваннях без папярэджання карыстальніка — шакуюча варожа і выглядае жахліва», — напісаў у X Дзін Бол, старшы навуковы супрацоўнік Foundation for American Innovation і былы дарадца Белага дома па ШІ.
Даследчык Уіл Браўн з ШІ-стартапу Prime Intellect заявіў, што палітыка выглядала так, быццам Anthropic лічыць толькі сябе вартай займацца прасунутымі даследаваннямі ШІ. На ягоную думку, гэта нагадвала сітуацыю, у якой кампанія «падцягвае лесвіцу за сабой».
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.