Алеся Чапкевич world 10 чэрвеня 2026, 12:48

Сабатаж ад Anthropic: новыя мадэлі Mythos пагаршаюць адказы, калі распазнаюць ШІ-даследаванні, распрацоўшчыкі раз'юшаныя

Anthropic спрацавала скандал у ІТ-індустрыі. Як высветлілася з афіцыйнай тэхнічнай дакументацыі да выпушчаных мадэляў Mythos 5 і Fable 5, распрацоўшчыкі наўмысна абрэзалі магчымасці нейрасетак, зрабіўшы іх менш карыснымі, калі карыстальнік займаецца даследаваннямі ў галіне ШІ.

Пакінуць каментарый

Сабатаж ад Anthropic: новыя мадэлі Mythos пагаршаюць адказы, калі распазнаюць ШІ-даследаванні, распрацоўшчыкі раз'юшаныя

Anthropic спрацавала скандал у ІТ-індустрыі. Як высветлілася з афіцыйнай тэхнічнай дакументацыі да выпушчаных мадэляў Mythos 5 і Fable 5, распрацоўшчыкі наўмысна абрэзалі магчымасці нейрасетак, зрабіўшы іх менш карыснымі, калі карыстальнік займаецца даследаваннямі ў галіне ШІ.

Кампанія сцвярджае, што пайшла на гэты крок праз асцярогі, што перадавыя ШІ-сістэмы могуць паскорыць стварэнне канкуруючых мадэляў, якія не будуць валодаць належным узроўнем бяспекі. Пры гэтым яна зрабіла беспрэцэдэнтны крок: у адрозненне ад стандартных блакіровак — напрыклад, пры запытах пра кібератакі або хімічную зброю, — гэтыя абмежаванні наўмысна зроблены нябачнымі для карыстальніка. Мадэль не выдае адмову і не пераключаецца на больш слабую версію — Mythos тайна мадыфікуе адказы, незаўважна змяняючы промпты карыстальніка.

Такое рашэнне выклікала шквал крытыкі з боку ШІ-супольнасці і экспертаў, абураных тым, што мадэль скрытна скажае інфармацыю.

«Навейшая мадэль Anthropic НЕ дапаможа вам, калі палічыць вашыя даследаванні або распрацоўкі ў галіне машыннага навучання цікавымі, і/або тайна знізіць свой IQ так, што звычайны інжынер гэтага нават не заўважыць. Мы ўжо бачым, як фільтры новай мадэлі адсякаюць нашы даследаванні ў галіне інферэнсу на GPU і кодінгу», — адзначылі ў кампаніі SemiAnalysis.

«Mythos будзе НАЎМЫСНА кепскі ў задачах, звязаных з перадавымі даследаваннямі вялікіх моўных мадэляў. Гэта вельмі, вельмі сумна для даследчай супольнасці. І той факт, што гэта ўмысна хаваецца ад карыстальніка, — проста вар’яцтва», — напісалі ШІ-спецыялісты стартапа Prime Intellect.

«Яна не папросту не дапаможа вам — яна будзе хлусіць і мэтанакіравана выдаваць няправільную інфармацыю. Кампанія, якая заяўляе пра „этычны ШІ“, стварыла самую неэтычную вялікую моўную мадэль, прычым зрабіла гэта адмыслова», — адзначыў яшчэ адзін распрацоўшчык.

Сузаснавальнік ШІ-стартапа Reka Мікель Артэтчэ правёў такую аналогію: «Гэта як калі б Apple выпадковым чынам перазагружала ваш Mac, калі вы ствараеце канкуруючую тэхналогію, Gmail моўчкі рэдагаваў вашы лісты пры згадванні платформ-суперніц, а аўтапілот Tesla віляў убок, калі выяўляў, што вы працуеце над аўтапілотнымі аўтамабілямі».

Інцыдэнт пралiў святло на даўнюю дыскусію пра тое, чаму Anthropic зацягвала рэліз Mythos пасля анонсу. У індустрыі абмяркоўваліся тры версіі. Афіцыйная заключалася ў тым, што мадэль занадта небяспечная, і даследчыкам кібербяспекі патрэбен быў час на падрыхтоўку. Другой быў дэфіцыт магутнасцяў: маўляў, Mythos вялізная і дарагая ў абслузе, і ў кампаніі не хапала вылічальных рэсурсаў да заключэння новых буйных угодаў. Нарэшце, меркавалася, што ШІ-кампаніі баяцца дысцыляцыі мадэляў, калі канкурэнты, асабліва распрацоўшчыкі оўпэнсорсных рашэнняў і кітайскія лабараторыі, выкарыстоўваюць адказы перадавой нейрасеткі для навучання ўласных сістэмаў.

Пасля таго як Anthropic афіцыйна ўбудавала абмежаванні для ШІ-даследчыкаў у камерцыйны рэліз Mythos, трэцяя тэорыя пра абарону ад канкурэнтаў стала выглядаць найбольш праўдападобна.