Дапамажыце dev.by 🤍
Падтрымаць

Nvidia запусціла NitroGen: ШІ можа гуляць больш чым у 1000 відэагульняў

Даследчыкі з Nvidia сумесна з навукоўцамі са Стэнфарда, Каліфарнійскага тэхналагічнага інстытута і іншых навуковых цэнтраў прэзентавалі NitroGen — універсальную гульнявую ШІ-мадэль, здольную гуляць практычна ў любыя відэагульні.

1 каментарый
Nvidia запусціла NitroGen: ШІ можа гуляць больш чым у 1000 відэагульняў

Даследчыкі з Nvidia сумесна з навукоўцамі са Стэнфарда, Каліфарнійскага тэхналагічнага інстытута і іншых навуковых цэнтраў прэзентавалі NitroGen — універсальную гульнявую ШІ-мадэль, здольную гуляць практычна ў любыя відэагульні.

NitroGen апісваюць як спробу стварыць «GPT для дзеянняў» — фундаментальную мадэль, навучаную не мове, а кіраванню і прыняццю рашэнняў у дынамічных асяроддзях. У аснове сістэмы ляжыць архітэктура GROOT N1.5, першапачаткова распрацаваная для робататэхнічных задач. Выкарыстанне гэтай архітэктуры ў відэагульнях дазваляе праверыць універсальнасць мадэлі і затым перанесці атрыманыя навыкі назад у фізічны свет, напрыклад, у робатаў, якія працуюць у непрадказальных умовах.

Агульная схема NitroGen. Сістэма складаецца з трох частак: у цэнтры — універсальны агент, які па выяве з гульні генеруе дзеянні на геймпадзе і можа гуляць у розныя гульні без дадатковага навучання; злева — універсальны сімулятар, які дазваляе падключаць любыя камерцыйныя гульні праз адзіны API; справа — маштабны датасэт, сабраны з больш чым 40 000 гадзін публічных відэа геймплэя з выдзеленымі дзеяннямі гульцоў для навучання мадэлі. Крыніца: NitroGen.

Для навучання NitroGen каманда выкарыстала дзясяткі тысяч гадзін публічных геймплэй-відэа. Асабліва каштоўнымі аказаліся запісы, дзе стрымеры накладвалі на відэа свае дзеянні з геймпадам у рэальным часе, што дазволіла звязаць візуальнае ўспрыманне з канкрэтнымі кіруючымі камандамі. У выніку мадэль навучылася спраўляцца з гульнямі самых розных жанраў: ад платформераў і RPG да гонак і каралеўскіх бітваў, як у 2D, так і ў 3D-асяроддзі.

На бягучым этапе NitroGen робіць акцэнт на хуткім маторным кантролі — так званым «геймерскім інстынкце». Тым не менш у тэстах мадэль паказала ўпэўненую працу ў раней не бачаных гульнях і працэдурна генераваных светах, значна перавышаючы сістэмы, навучаныя з нуля. Па словах распрацоўшчыкаў, гэта толькі першы крок, і да па-сапраўднаму ўніверсальных агентаў яшчэ далёка.

Увесь праект NitroGen выкладзены ў адкрыты доступ: апублікаваны вагі мадэлі, датасэт дзеянняў і зыходны код. Аўтары заклікаюць даследчыкаў і энтузіястаў эксперыментаваць з сістэмай, разглядаючы яе не толькі як гульнявы ШІ, але і як фундамент для будучых рашэнняў у робататэхніцы і аўтаномных агентных сістэмах.

The Game Awards 2025: победители главной геймерской премии
The Game Awards 2025: победители главной геймерской премии
Па тэме
The Game Awards 2025: победители главной геймерской премии
Apple назвала лепшыя аплікацыі і гульні 2025 года
Apple назвала лепшыя аплікацыі і гульні 2025 года
Па тэме
Apple назвала лепшыя аплікацыі і гульні 2025 года
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
Па тэме
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

Это гибрид двух нейронок. Первая берет скриншот, разбивает на кусочки и кодирует в вектора чисел точно так же, как это делает LLM с текстом. Visual Transformer. Они пробовали на цепочке скриншотов, но оказалось, что с одним последним работает не хуже. Кодировать много скриншотов сильно сложнее. Вторая - diffusion модель, которая берет случайный шум и "проявляет" его в цепочку действий, используя результат первой как шаблон. Агент ее "играет".

Как обычно со всеми этими нейронками - странно, что это вообще работает. Но работает.