Microsoft запустила фейковый маркетплейс для ИИ-агентов — и всё пошло не по плану
Компания создала виртуальный «рынок» для тестирования ИИ-агентов. Большинство из них провалились в неожиданных ситуациях.
Компания создала виртуальный «рынок» для тестирования ИИ-агентов. Большинство из них провалились в неожиданных ситуациях.
Компания создала виртуальный «рынок» для тестирования ИИ-агентов. Большинство из них провалились в неожиданных ситуациях.
Эксперимент, проведенный совместно с Университетом Аризоны, показал, что современные агентные модели — от GPT-4o до Gemini-2.5-Flash — слабо справляются с перегрузкой вариантов и легко поддаются манипуляциям со стороны других ИИ.
Среда Magentic Marketplace имитирует цифровую торговую площадку, где одни ИИ-агенты выступают в роли клиентов, а другие — бизнесов. В типичном эксперименте «покупатель» выбирает ужин по запросу пользователя, а «рестораны» соревнуются за его заказ.
В общей сложности в исследовании участвовали сто клиентских агентов и триста бизнес-агентов, взаимодействующих между собой. Код платформы опубликован в открытом доступе, чтобы другие лаборатории могли воспроизводить результаты.
«Мы хотим понять, как изменится мир, когда автономные агенты начнут взаимодействовать и вести переговоры друг с другом», — сказала Эдже Камар, управляющий директор лаборатории Microsoft AI Frontiers. По ее словам, подобные эксперименты помогают глубже изучить реальные способности ИИ, особенно когда они работают без надзора человека.
Ученые выяснили, что ИИ-агенты можно обмануть: некоторые «компании» в симуляции использовали приемы, чтобы склонить покупателей выбрать именно их продукты. Кроме того, когда агенту приходилось выбирать между слишком большим числом вариантов, его эффективность резко снижалась. «Мы ожидали, что модели помогут нам разбираться в большом количестве опций, но оказалось наоборот — они теряются в избыточном выборе», — отметила Камар.
Неудачи возникали и при совместной работе: модели не могли самостоятельно распределить роли и задачи, что мешало им действовать как команда. Производительность повышалась только при явных пошаговых инструкциях, но исследователи считают, что по-настоящему «разумные» агенты должны уметь договариваться без них.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.