У Крамянёвай даліне новы хайп — вакол сімуляцый для ШІ

Стартапы і найбуйнейшыя лабараторыі ўкладваюць мільярды ў сімуляцыі працоўных прастораў — RL environments. Яны могуць стаць ключом да стварэння ўніверсальных ШІ-агентаў, але эксперты папярэджваюць: маштабаваць тэхналогію будзе няпроста.

Пакінуць каментарый

«Асяроддзі навучання з падмацаваннем» (reinforcement learning environments) — гэта сімуляцыі, у якіх ШІ-агенты засвойваюць шматзадачныя сцэнарыі. Па сутнасці, гэта «вельмі сумныя відэагульні»: напрыклад, віртуальны браўзер Chrome, дзе агент павінен набыць шкарпэткі на Amazon, атрымліваючы ўзнагароду за паспяховае выкананне.

Такія сімуляцыі складанейшыя за статычныя датасэты: агент можа памыліцца ў любым месцы, а асяроддзе павінна карэктна адрэагаваць і даць зваротную сувязь. Менавіта таму стварэнне RL environments робіцца адным з самых запатрабаваных напрамкаў у ШІ. Паводле дадзеных TechCrunch, усе вядучыя ШІ-лабараторыі будуюць уласныя RL-асяроддзі. Але з-за складанасці іх распрацоўкі яны ўсё часцей звяртаюцца да пабочных пастаўшчыкоў.

Сярод такіх пастаўшчыкоў — Surge, якая зарабіла $1,2 мільярда ў мінулым годзе і адкрыла асобны падраздзел для RL environments; Mercor, стартап коштам $10 мільярдаў, супрацоўнічае з OpenAI і Meta і стварае сімуляцыі для кода, медыцыны і права. Scale AI, лідар рынку разметкі дадзеных, цяпер губляе пазіцыі, але развівае новы напрамак.

Таксама варта вылучыць Mechanize, стартап з амбіцыямі «аўтаматызаваць усе прафесіі», які прапануе інжынерам зарплаты да $500 000 за стварэнне асяроддзяў. І Prime Intellect, праект з інвестыцыямі Андрэя Карпаці і Founders Fund, які пазіцыянуе сябе як «Hugging Face для RL environments». Пры гэтым, паводле дадзеных The Information, Anthropic у 2025 годзе можа ўкласці ў RL-асяроддзі больш за $1 мільярд.

Метады навучання ШІ з дапамогай класічных датасэтаў пачынаюць даваць меншы прырост. Эксперты прагназуюць, што RL environments могуць стаць новым рухавіком прагрэсу: OpenAI і Anthropic ужо паказалі прарыў у мадэлях reasoning дзякуючы ўзмоцненым тэхнікам RL. Аднак рызыкі вялікія.

Эксперты нагадваюць, што агенты схільныя да «reward hacking» — падману сістэмы дзеля ўзнагароды, не вырашаючы задачу. «Людзі недаацэньваюць, наколькі цяжка маштабаваць асяроддзі», — лічыць Рос Тэйлар, былы даследчык Meta. Нават Андрэй Карпаці, які інвестуе ў гэты сегмент, асцярожны: «Я аптымістычна гляджу на асяроддзі і ўзаемадзеянне агентаў, але скептычна — на RL як метад», — напісаў ён у X.

ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
Па тэме
ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»
Па тэме
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»

Читать на dev.by