У сеціва патрапіў «агляд душы» чат-бота Claude ад Anthropic
У сеціве з’явіўся ўнутраны дакумент Anthropic пад назвай Soul overview, які выкарыстоўваецца для навучання мадэлі Claude 4.5 Opus і апісвае яе каштоўнасці, мэты і прынцыпы паводзін.
У сеціве з’явіўся ўнутраны дакумент Anthropic пад назвай Soul overview, які выкарыстоўваецца для навучання мадэлі Claude 4.5 Opus і апісвае яе каштоўнасці, мэты і прынцыпы паводзін.
У сеціве з’явіўся ўнутраны дакумент Anthropic пад назвай Soul overview, які выкарыстоўваецца для навучання мадэлі Claude 4.5 Opus і апісвае яе каштоўнасці, мэты і прынцыпы паводзін.
Пра знаходку паведаміў даследчык ШІ Рычард Вайс, які апублікаваў падрабязнасці на форуме LessWrong. Спачатку ў эксперта ўзніклі сумневы, што дакумент мог быць галюцынацыяй мадэлі, аднак супрацоўніца Anthropic Аманда Аскел пацвердзіла яго сапраўднасць: кампанія сапраўды выкарыстоўвала гэты матэрыял у працэсе навучання Claude.
У дакуменце Anthropic апісвае сваё становішча як кампаніі, што стварае патэнцыйна «адну з самых трансфармуючых і небяспечных тэхналогій у гісторыі», але пры гэтым прытрымліваецца стратэгіі, што менавіта лабараторыі, арыентаваныя на бяспеку, павінны заставацца на перадавой развіцця ШІ.
Аўтары справаздачы сцвярджаюць, што большасць рызык ШІ звязана з «няслушнымі каштоўнасцямі мадэляў, абмежаванымі ведамі пра сябе і свет ці недастатковымі навыкамі перакладу каштоўнасцяў у дзеянні». Таму кампанія імкнецца навучаць Claude «добрым каштоўнасцям, шырокім ведам і мудрасці» — не праз набор правілаў, а праз глыбокае разуменне мэтаў распрацоўшчыкаў і кантэксту выкарыстання.
У дакуменце сказана, што Claude павінен падтрымліваць чалавечы кантроль над ШІ, дзейнічаць этычна, быць карысным і надзейным для карыстальнікаў, а таксама разумець уласныя абмежаванні. У тэксце гаворыцца, што Claude — «новы тып сутнасці», не падобны ні на навукова-фантастычных робатаў, ні на звышінтэлект, ні на лічбавага чалавека. Мадэль, паводле думкі аўтараў, «чалавечная ў многім, але не цалкам».
Паводле слоў Аскелл, злітая версія можа ўтрымліваць недакладнасці, але ў цэлым адлюстроўвае змест рэальнага ўнутранага дакумента. Унутры Anthropic ён атрымаў нефармальную назву «soul doc».



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.