Nvidia запусціла NitroGen: ШІ можа гуляць больш чым у 1000 відэагульняў
Даследчыкі з Nvidia сумесна з навукоўцамі са Стэнфарда, Каліфарнійскага тэхналагічнага інстытута і іншых навуковых цэнтраў прэзентавалі NitroGen — універсальную гульнявую ШІ-мадэль, здольную гуляць практычна ў любыя відэагульні.
Даследчыкі з Nvidia сумесна з навукоўцамі са Стэнфарда, Каліфарнійскага тэхналагічнага інстытута і іншых навуковых цэнтраў прэзентавалі NitroGen — універсальную гульнявую ШІ-мадэль, здольную гуляць практычна ў любыя відэагульні.
NitroGen апісваюць як спробу стварыць «GPT для дзеянняў» — фундаментальную мадэль, навучаную не мове, а кіраванню і прыняццю рашэнняў у дынамічных асяроддзях. У аснове сістэмы ляжыць архітэктура GROOT N1.5, першапачаткова распрацаваная для робататэхнічных задач. Выкарыстанне гэтай архітэктуры ў відэагульнях дазваляе праверыць універсальнасць мадэлі і затым перанесці атрыманыя навыкі назад у фізічны свет, напрыклад, у робатаў, якія працуюць у непрадказальных умовах.
Агульная схема NitroGen. Сістэма складаецца з трох частак: у цэнтры — універсальны агент, які па выяве з гульні генеруе дзеянні на геймпадзе і можа гуляць у розныя гульні без дадатковага навучання; злева — універсальны сімулятар, які дазваляе падключаць любыя камерцыйныя гульні праз адзіны API; справа — маштабны датасэт, сабраны з больш чым 40 000 гадзін публічных відэа геймплэя з выдзеленымі дзеяннямі гульцоў для навучання мадэлі. Крыніца: NitroGen.
Для навучання NitroGen каманда выкарыстала дзясяткі тысяч гадзін публічных геймплэй-відэа. Асабліва каштоўнымі аказаліся запісы, дзе стрымеры накладвалі на відэа свае дзеянні з геймпадам у рэальным часе, што дазволіла звязаць візуальнае ўспрыманне з канкрэтнымі кіруючымі камандамі. У выніку мадэль навучылася спраўляцца з гульнямі самых розных жанраў: ад платформераў і RPG да гонак і каралеўскіх бітваў, як у 2D, так і ў 3D-асяроддзі.
На бягучым этапе NitroGen робіць акцэнт на хуткім маторным кантролі — так званым «геймерскім інстынкце». Тым не менш у тэстах мадэль паказала ўпэўненую працу ў раней не бачаных гульнях і працэдурна генераваных светах, значна перавышаючы сістэмы, навучаныя з нуля. Па словах распрацоўшчыкаў, гэта толькі першы крок, і да па-сапраўднаму ўніверсальных агентаў яшчэ далёка.
Увесь праект NitroGen выкладзены ў адкрыты доступ: апублікаваны вагі мадэлі, датасэт дзеянняў і зыходны код. Аўтары заклікаюць даследчыкаў і энтузіястаў эксперыментаваць з сістэмай, разглядаючы яе не толькі як гульнявы ШІ, але і як фундамент для будучых рашэнняў у робататэхніцы і аўтаномных агентных сістэмах.
Это гибрид двух нейронок. Первая берет скриншот, разбивает на кусочки и кодирует в вектора чисел точно так же, как это делает LLM с текстом. Visual Transformer. Они пробовали на цепочке скриншотов, но оказалось, что с одним последним работает не хуже. Кодировать много скриншотов сильно сложнее. Вторая - diffusion модель, которая берет случайный шум и "проявляет" его в цепочку действий, используя результат первой как шаблон. Агент ее "играет".
Как обычно со всеми этими нейронками - странно, что это вообще работает. Но работает.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Это гибрид двух нейронок. Первая берет скриншот, разбивает на кусочки и кодирует в вектора чисел точно так же, как это делает LLM с текстом. Visual Transformer. Они пробовали на цепочке скриншотов, но оказалось, что с одним последним работает не хуже. Кодировать много скриншотов сильно сложнее. Вторая - diffusion модель, которая берет случайный шум и "проявляет" его в цепочку действий, используя результат первой как шаблон. Агент ее "играет".
Как обычно со всеми этими нейронками - странно, что это вообще работает. Но работает.