Дапамажыце dev.by 🤍
Падтрымаць

У Крамянёвай даліне новы хайп — вакол сімуляцый для ШІ

Стартапы і найбуйнейшыя лабараторыі ўкладваюць мільярды ў сімуляцыі працоўных прастораў — RL environments. Яны могуць стаць ключом да стварэння ўніверсальных ШІ-агентаў, але эксперты папярэджваюць: маштабаваць тэхналогію будзе няпроста.

Пакінуць каментарый
У Крамянёвай даліне новы хайп — вакол сімуляцый для ШІ

Стартапы і найбуйнейшыя лабараторыі ўкладваюць мільярды ў сімуляцыі працоўных прастораў — RL environments. Яны могуць стаць ключом да стварэння ўніверсальных ШІ-агентаў, але эксперты папярэджваюць: маштабаваць тэхналогію будзе няпроста.

«Асяроддзі навучання з падмацаваннем» (reinforcement learning environments) — гэта сімуляцыі, у якіх ШІ-агенты засвойваюць шматзадачныя сцэнарыі. Па сутнасці, гэта «вельмі сумныя відэагульні»: напрыклад, віртуальны браўзер Chrome, дзе агент павінен набыць шкарпэткі на Amazon, атрымліваючы ўзнагароду за паспяховае выкананне.

Такія сімуляцыі складанейшыя за статычныя датасэты: агент можа памыліцца ў любым месцы, а асяроддзе павінна карэктна адрэагаваць і даць зваротную сувязь. Менавіта таму стварэнне RL environments робіцца адным з самых запатрабаваных напрамкаў у ШІ. Паводле дадзеных TechCrunch, усе вядучыя ШІ-лабараторыі будуюць уласныя RL-асяроддзі. Але з-за складанасці іх распрацоўкі яны ўсё часцей звяртаюцца да пабочных пастаўшчыкоў.

Сярод такіх пастаўшчыкоў — Surge, якая зарабіла $1,2 мільярда ў мінулым годзе і адкрыла асобны падраздзел для RL environments; Mercor, стартап коштам $10 мільярдаў, супрацоўнічае з OpenAI і Meta і стварае сімуляцыі для кода, медыцыны і права. Scale AI, лідар рынку разметкі дадзеных, цяпер губляе пазіцыі, але развівае новы напрамак.

Таксама варта вылучыць Mechanize, стартап з амбіцыямі «аўтаматызаваць усе прафесіі», які прапануе інжынерам зарплаты да $500 000 за стварэнне асяроддзяў. І Prime Intellect, праект з інвестыцыямі Андрэя Карпаці і Founders Fund, які пазіцыянуе сябе як «Hugging Face для RL environments». Пры гэтым, паводле дадзеных The Information, Anthropic у 2025 годзе можа ўкласці ў RL-асяроддзі больш за $1 мільярд.

Метады навучання ШІ з дапамогай класічных датасэтаў пачынаюць даваць меншы прырост. Эксперты прагназуюць, што RL environments могуць стаць новым рухавіком прагрэсу: OpenAI і Anthropic ужо паказалі прарыў у мадэлях reasoning дзякуючы ўзмоцненым тэхнікам RL. Аднак рызыкі вялікія.

Эксперты нагадваюць, што агенты схільныя да «reward hacking» — падману сістэмы дзеля ўзнагароды, не вырашаючы задачу. «Людзі недаацэньваюць, наколькі цяжка маштабаваць асяроддзі», — лічыць Рос Тэйлар, былы даследчык Meta. Нават Андрэй Карпаці, які інвестуе ў гэты сегмент, асцярожны: «Я аптымістычна гляджу на асяроддзі і ўзаемадзеянне агентаў, але скептычна — на RL як метад», — напісаў ён у X.

ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
Па тэме
ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»
Па тэме
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.