Дапамажыце dev.by 🤍
Падтрымаць

У Крамянёвай даліне новы хайп — вакол сімуляцый для ШІ

Стартапы і найбуйнейшыя лабараторыі ўкладваюць мільярды ў сімуляцыі працоўных прастораў — RL environments. Яны могуць стаць ключом да стварэння ўніверсальных ШІ-агентаў, але эксперты папярэджваюць: маштабаваць тэхналогію будзе няпроста.

Пакінуць каментарый
У Крамянёвай даліне новы хайп — вакол сімуляцый для ШІ

Стартапы і найбуйнейшыя лабараторыі ўкладваюць мільярды ў сімуляцыі працоўных прастораў — RL environments. Яны могуць стаць ключом да стварэння ўніверсальных ШІ-агентаў, але эксперты папярэджваюць: маштабаваць тэхналогію будзе няпроста.

«Асяроддзі навучання з падмацаваннем» (reinforcement learning environments) — гэта сімуляцыі, у якіх ШІ-агенты засвойваюць шматзадачныя сцэнарыі. Па сутнасці, гэта «вельмі сумныя відэагульні»: напрыклад, віртуальны браўзер Chrome, дзе агент павінен набыць шкарпэткі на Amazon, атрымліваючы ўзнагароду за паспяховае выкананне.

Такія сімуляцыі складанейшыя за статычныя датасэты: агент можа памыліцца ў любым месцы, а асяроддзе павінна карэктна адрэагаваць і даць зваротную сувязь. Менавіта таму стварэнне RL environments робіцца адным з самых запатрабаваных напрамкаў у ШІ. Паводле дадзеных TechCrunch, усе вядучыя ШІ-лабараторыі будуюць уласныя RL-асяроддзі. Але з-за складанасці іх распрацоўкі яны ўсё часцей звяртаюцца да пабочных пастаўшчыкоў.

Сярод такіх пастаўшчыкоў — Surge, якая зарабіла $1,2 мільярда ў мінулым годзе і адкрыла асобны падраздзел для RL environments; Mercor, стартап коштам $10 мільярдаў, супрацоўнічае з OpenAI і Meta і стварае сімуляцыі для кода, медыцыны і права. Scale AI, лідар рынку разметкі дадзеных, цяпер губляе пазіцыі, але развівае новы напрамак.

Таксама варта вылучыць Mechanize, стартап з амбіцыямі «аўтаматызаваць усе прафесіі», які прапануе інжынерам зарплаты да $500 000 за стварэнне асяроддзяў. І Prime Intellect, праект з інвестыцыямі Андрэя Карпаці і Founders Fund, які пазіцыянуе сябе як «Hugging Face для RL environments». Пры гэтым, паводле дадзеных The Information, Anthropic у 2025 годзе можа ўкласці ў RL-асяроддзі больш за $1 мільярд.

Метады навучання ШІ з дапамогай класічных датасэтаў пачынаюць даваць меншы прырост. Эксперты прагназуюць, што RL environments могуць стаць новым рухавіком прагрэсу: OpenAI і Anthropic ужо паказалі прарыў у мадэлях reasoning дзякуючы ўзмоцненым тэхнікам RL. Аднак рызыкі вялікія.

Эксперты нагадваюць, што агенты схільныя да «reward hacking» — падману сістэмы дзеля ўзнагароды, не вырашаючы задачу. «Людзі недаацэньваюць, наколькі цяжка маштабаваць асяроддзі», — лічыць Рос Тэйлар, былы даследчык Meta. Нават Андрэй Карпаці, які інвестуе ў гэты сегмент, асцярожны: «Я аптымістычна гляджу на асяроддзі і ўзаемадзеянне агентаў, але скептычна — на RL як метад», — напісаў ён у X.

ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
Па тэме
ШІ выцясняе зумераў — моладзевае беспрацоўе няўхільна расце
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»
Па тэме
Карыстальнікі ўсё часцей заводзяць адносіны з «ШІ-бойфрэндамі»
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.