Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код

Кампанія прэзентавала новую ШІ-мадэль для распрацоўкі праграмнага забеспячэння — Code World Model (CWM). Даследчыкі называюць мадэль «нейронным адладчыкам»: яна здольная прадказваць паводзіны праграмы да яе запуску, у тым ліку выяўляць рызыку зацыклівання.

1 каментарый

Мадэль навучалася на 120 мільёнах запускаў Python-кода, фіксуючы паэтапную змену зменных і станаў сістэмы. Для гэтага каманда Meta стварыла больш за 35 тысяч выканальных Docker-кантэйнераў. Такі падыход дазволіў CWM засвоіць не толькі сінтаксіс, але і семантыку моў праграмавання.

Трэніроўка праходзіла ў тры этапы: базавае навучанне на 8 трыльёнах токенаў, праца з «трасіроўкамі выканання» на 5 трыльёнаў токенаў і фінальная настройка з выкарыстаннем метадаў падмацавання.

Code World Model вырашае задачу па праграмаванні: мадэль разважае аб ходзе выканання кода, генеруе рашэнне на C++, тэсціруе яго на прыкладах і правярае карэктнасць працы. Крыніца: Meta.

CWM паказала высокія вынікі на шэрагу галіновых бенчмаркаў: 65,8% на SWE-bench Verified (рашэнне рэальных памылак у кодзе), 68,6% на LiveCodeBench, 96,6% на Math-500 і 76% на AIME 2024. Акрамя таго, мадэль умее аналізаваць алгарытмічную складанасць: на тэсце BigOBench яна заняла другое месца па прагназаванні часавай складанасці.

Адной з асаблівасцяў CWM стала ўменне аднаўляць функцыі па апісанні задачы і чаканым выніку. Фактычна мадэль здольная ісці ад пастаноўкі праблемы да гатовага рашэння, правяраючы свае гіпотэзы ў працэсе. На думку даследчыкаў, гэта адкрывае перспектывы для аўтаматызаванага пошуку памылак, аптымізацыі праграм і стварэння больш інтэлектуальных ШІ-агентаў для інжынерыі.

Code World Model выкарыстоўвае структураваныя трасіроўкі, каб паэтапна прадказваць выкананне Python-праграм. Крыніца: Meta.

Мадэль налічвае 32 мільярды параметраў, можа працаваць на адным GPU Nvidia H100 з 80 ГБ памяці і падтрымлівае кантэкстныя вокны да 131 000 токенаў. Meta выклала яе ў адкрыты доступ пад даследчай ліцэнзіяй разам з прамежкавымі чэкпойнтамі на платформе Hugging Face.

У кампаніі падкрэсліваюць, што пакуль CWM — чыста даследчы праект, не прызначаны для камерцыйнага выкарыстання або зносін у чат-фармаце. Аднак ужо зараз спецыялісты называюць яго канцэптуальным прарывам: зрухам ад капіравання шаблонаў да глыбокага разумення логікі і паводзін праграм.

Параўнальныя вынікі тэстаў Meta Code World Model і іншых мадэляў (SWE-bench Verified). Крыніца: Meta.
IEEE: з-за ШІ стала немагчыма адсочваць папулярнасць моў, іх будучыня пад пытаннем
Па тэме
IEEE: з-за ШІ стала немагчыма адсочваць папулярнасць моў, іх будучыня пад пытаннем
У Крамянёвай даліне новы хайп — вакол сімуляцый для ШІ
Па тэме
У Крамянёвай даліне новы хайп — вакол сімуляцый для ШІ
ШІ-агенты ствараюць новую эканоміку, але рызыкуюць абрынуць яе за секунды
Па тэме
ШІ-агенты ствараюць новую эканоміку, але рызыкуюць абрынуць яе за секунды

Читать на dev.by