Николай Чикишев world 5 снежня 2025, 15:24

У сеціва патрапіў «агляд душы» чат-бота Claude ад Anthropic

У сеціве з’явіўся ўнутраны дакумент Anthropic пад назвай Soul overview, які выкарыстоўваецца для навучання мадэлі Claude 4.5 Opus і апісвае яе каштоўнасці, мэты і прынцыпы паводзін.

Пакінуць каментарый

У сеціва патрапіў «агляд душы» чат-бота Claude ад Anthropic

У сеціве з’явіўся ўнутраны дакумент Anthropic пад назвай Soul overview, які выкарыстоўваецца для навучання мадэлі Claude 4.5 Opus і апісвае яе каштоўнасці, мэты і прынцыпы паводзін.

Пра знаходку паведаміў даследчык ШІ Рычард Вайс, які апублікаваў падрабязнасці на форуме LessWrong. Спачатку ў эксперта ўзніклі сумневы, што дакумент мог быць галюцынацыяй мадэлі, аднак супрацоўніца Anthropic Аманда Аскел пацвердзіла яго сапраўднасць: кампанія сапраўды выкарыстоўвала гэты матэрыял у працэсе навучання Claude.

У дакуменце Anthropic апісвае сваё становішча як кампаніі, што стварае патэнцыйна «адну з самых трансфармуючых і небяспечных тэхналогій у гісторыі», але пры гэтым прытрымліваецца стратэгіі, што менавіта лабараторыі, арыентаваныя на бяспеку, павінны заставацца на перадавой развіцця ШІ.

Аўтары справаздачы сцвярджаюць, што большасць рызык ШІ звязана з «няслушнымі каштоўнасцямі мадэляў, абмежаванымі ведамі пра сябе і свет ці недастатковымі навыкамі перакладу каштоўнасцяў у дзеянні». Таму кампанія імкнецца навучаць Claude «добрым каштоўнасцям, шырокім ведам і мудрасці» — не праз набор правілаў, а праз глыбокае разуменне мэтаў распрацоўшчыкаў і кантэксту выкарыстання.

У дакуменце сказана, што Claude павінен падтрымліваць чалавечы кантроль над ШІ, дзейнічаць этычна, быць карысным і надзейным для карыстальнікаў, а таксама разумець уласныя абмежаванні. У тэксце гаворыцца, што Claude — «новы тып сутнасці», не падобны ні на навукова-фантастычных робатаў, ні на звышінтэлект, ні на лічбавага чалавека. Мадэль, паводле думкі аўтараў, «чалавечная ў многім, але не цалкам».

Паводле слоў Аскелл, злітая версія можа ўтрымліваць недакладнасці, але ў цэлым адлюстроўвае змест рэальнага ўнутранага дакумента. Унутры Anthropic ён атрымаў нефармальную назву «soul doc».