Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Кампанія прэзентавала новую ШІ-мадэль для распрацоўкі праграмнага забеспячэння — Code World Model (CWM). Даследчыкі называюць мадэль «нейронным адладчыкам»: яна здольная прадказваць паводзіны праграмы да яе запуску, у тым ліку выяўляць рызыку зацыклівання.
Кампанія прэзентавала новую ШІ-мадэль для распрацоўкі праграмнага забеспячэння — Code World Model (CWM). Даследчыкі называюць мадэль «нейронным адладчыкам»: яна здольная прадказваць паводзіны праграмы да яе запуску, у тым ліку выяўляць рызыку зацыклівання.
Мадэль навучалася на 120 мільёнах запускаў Python-кода, фіксуючы паэтапную змену зменных і станаў сістэмы. Для гэтага каманда Meta стварыла больш за 35 тысяч выканальных Docker-кантэйнераў. Такі падыход дазволіў CWM засвоіць не толькі сінтаксіс, але і семантыку моў праграмавання.
Трэніроўка праходзіла ў тры этапы: базавае навучанне на 8 трыльёнах токенаў, праца з «трасіроўкамі выканання» на 5 трыльёнаў токенаў і фінальная настройка з выкарыстаннем метадаў падмацавання.
Code World Model вырашае задачу па праграмаванні: мадэль разважае аб ходзе выканання кода, генеруе рашэнне на C++, тэсціруе яго на прыкладах і правярае карэктнасць працы. Крыніца: Meta.
CWM паказала высокія вынікі на шэрагу галіновых бенчмаркаў: 65,8% на SWE-bench Verified (рашэнне рэальных памылак у кодзе), 68,6% на LiveCodeBench, 96,6% на Math-500 і 76% на AIME 2024. Акрамя таго, мадэль умее аналізаваць алгарытмічную складанасць: на тэсце BigOBench яна заняла другое месца па прагназаванні часавай складанасці.
Адной з асаблівасцяў CWM стала ўменне аднаўляць функцыі па апісанні задачы і чаканым выніку. Фактычна мадэль здольная ісці ад пастаноўкі праблемы да гатовага рашэння, правяраючы свае гіпотэзы ў працэсе. На думку даследчыкаў, гэта адкрывае перспектывы для аўтаматызаванага пошуку памылак, аптымізацыі праграм і стварэння больш інтэлектуальных ШІ-агентаў для інжынерыі.
Code World Model выкарыстоўвае структураваныя трасіроўкі, каб паэтапна прадказваць выкананне Python-праграм. Крыніца: Meta.
Мадэль налічвае 32 мільярды параметраў, можа працаваць на адным GPU Nvidia H100 з 80 ГБ памяці і падтрымлівае кантэкстныя вокны да 131 000 токенаў. Meta выклала яе ў адкрыты доступ пад даследчай ліцэнзіяй разам з прамежкавымі чэкпойнтамі на платформе Hugging Face.
У кампаніі падкрэсліваюць, што пакуль CWM — чыста даследчы праект, не прызначаны для камерцыйнага выкарыстання або зносін у чат-фармаце. Аднак ужо зараз спецыялісты называюць яго канцэптуальным прарывам: зрухам ад капіравання шаблонаў да глыбокага разумення логікі і паводзін праграм.
Параўнальныя вынікі тэстаў Meta Code World Model і іншых мадэляў (SWE-bench Verified). Крыніца: Meta.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
АААСТАНАВИЦЕСЬ!!!!!11
68% в синтетических тестах это будет сколько в реальной жизни? 10-20? А 130к токенов это вообще ничто для отладчика кода если проект чуть больше блога