Anthropic выпусціла Claude Sonnet 5 — амаль як Opus 4.8, але танней
Кампанія прадставіла Claude Sonnet 5 — новую сярэднюю мадэль, якая, паводле заявы кампаніі, наблізілася па магчымасцях да флагманскай Opus 4.8, але каштуе значна танней.
Кампанія прадставіла Claude Sonnet 5 — новую сярэднюю мадэль, якая, паводле заявы кампаніі, наблізілася па магчымасцях да флагманскай Opus 4.8, але каштуе значна танней.
Кампанія прадставіла Claude Sonnet 5 — новую сярэднюю мадэль, якая, паводле заявы кампаніі, наблізілася па магчымасцях да флагманскай Opus 4.8, але каштуе значна танней.
Мадэль стала даступная ва ўсіх тарыфах Claude і па замоўчванні ўключана для карыстальнікаў Free і Pro. У API, Claude Code і Claude Platform да 31 жніўня яна будзе каштаваць $2 за мільён уваходных токенаў і $10 за мільён выходных. Пасля цана вырасце да $3 і $15 адпаведна. Для параўнання, Opus 4.8 каштуе $5 за мільён уваходных токенаў і $25 за мільён выхадных.
Anthropic называе Sonnet 5 сваёй найбольш агентнай мадэллю лінейкі Sonnet. Паводле дадзеных кампаніі, яна значна лепш за папярэдніцу Sonnet 4.6 спраўляецца з разважаннямі, праграмаваннем, працай з інструментамі і задачамі са сферы інтэлектуальнай працы.

На SWE-bench Pro, бенчмарку для агентнага праграмавання, Sonnet 5 атрымала 63,2% супраць 58,1% у Sonnet 4.6 і 69,2% у Opus 4.8. У тэсце Terminal-Bench 2.1 яе вынік склаў 80,4% — амаль на ўзроўні Opus 4.8 з 82,7%. На бенчмарку GDPval-AA v2 для задач інтэлектуальнай працы Sonnet 5 нават крыху апярэдзіла флагманскую мадэль: 1618 балаў супраць 1615.
Распрацоўшчыкі сцвярджаюць, што новая мадэль лепш давядзе складаныя заданні да канца. Адзін з тэсціроўшчыкаў з Zapier расказаў, што Sonnet 5 здолела самастойна абнавіць статусы акаўнтаў у Salesforce і разаслаць анонс кліентам — задача, на якой папярэднія версіі мадэлі спыняліся на паўдарозе.
Кампанія таксама заявіла, што Sonnet 5 радзей галюцынуе і ліслівіць карыстальніку, лепш адхіляе шкодныя запыты і больш устойлівая да промпт-ін’екцый. Пры гэтым па здольнасці выконваць патэнцыйна небяспечныя кіберзадачы яна значна саступае Opus 4.8 і Mythos 5: у тэсце на стварэнне эксплойтаў для Firefox мадэль не здолела стварыць ніводнага працоўнага эксплойта. Для яе па змаўчанні ўключылі кіберабарону, якая блакуе небяспечныя сцэнары выкарыстання.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.