В Кремниевой долине новый хайп — вокруг симуляций для ИИ

Стартапы и крупнейшие лаборатории вкладывают миллиарды в симуляции рабочих пространств — RL environments. Они могут стать ключом к созданию универсальных ИИ-агентов, но эксперты предупреждают: масштабировать технологию будет непросто.

Оставить комментарий

«Среды обучения с подкреплением» (reinforcement learning environments) — это симуляции, в которых ИИ-агенты осваивают многозадачные сценарии. По сути, это «очень скучные видеоигры»: например, виртуальный браузер Chrome, где агент должен купить носки на Amazon, получая вознаграждение за успешное выполнение.

Такие симуляции сложнее статичных датасетов: агент может ошибиться в любом месте, а среда должна корректно отреагировать и дать обратную связь. Именно поэтому создание RL environments становится одним из самых востребованных направлений в ИИ. По данным TechCrunch, все ведущие ИИ-лаборатории строят собственные RL-среды. Но из-за сложности их разработки они все чаще обращаются к сторонним поставщикам.

Среди таких поставщиков — Surge, заработавшая $1,2 миллиарда в прошлом году и открывшая отдельное подразделение для RL environments; Mercor, стартап стоимостью $10 миллиардов, сотрудничает с OpenAI и Meta и создает симуляции для кода, медицины и права. Scale AI, лидер рынка разметки данных, теперь теряет позиции, но развивает новое направление.

Также стоит выделить Mechanize, стартап с амбициями «автоматизировать все профессии», предлагающий инженерам зарплаты до $500 000 за создание сред. И Prime Intellect, проект с инвестициями Андрея Карпати и Founders Fund, который позиционирует себя как «Hugging Face для RL environments». При этом, по данным The Information, Anthropic в 2025 году может вложить в RL-среды более $1 миллиарда.

Методы обучения ИИ с помощью классических датасетов начинают давать меньший прирост. Эксперты прогнозируют, что RL environments могут стать новым двигателем прогресса: OpenAI и Anthropic уже показали прорыв в моделях reasoning благодаря усиленным техникам RL. Однако риски велики.

Эксперты напоминают, что агенты склонны к «reward hacking» — обману системы ради вознаграждения, не решая задачу. «Люди недооценивают, насколько трудно масштабировать среды», — считает Росс Тейлор, бывший исследователь Meta. Даже Андрей Карпати, инвестирующий в этот сегмент, осторожен: «Я оптимистично смотрю на среды и взаимодействие агентов, но скептически — на RL как метод», — написал он в X.

8 ИИ-прогнозов Forbes на 2026 год
По теме
8 ИИ-прогнозов Forbes на 2026 год
ИИ вытесняет зумеров — молодёжная безработица неуклонно растёт
По теме
ИИ вытесняет зумеров — молодёжная безработица неуклонно растёт
Пользователи всё чаще заводят отношения с «ИИ-бойфрендами»
По теме
Пользователи всё чаще заводят отношения с «ИИ-бойфрендами»

Читать на dev.by