17% скидка на размещение рекламы на площадках devby — до 20 ноября. Клац!
Support us

Microsoft запустила фейковый маркетплейс для ИИ-агентов — и всё пошло не по плану

Компания создала виртуальный «рынок» для тестирования ИИ-агентов. Большинство из них провалились в неожиданных ситуациях.

Оставить комментарий
Microsoft запустила фейковый маркетплейс для ИИ-агентов — и всё пошло не по плану

Компания создала виртуальный «рынок» для тестирования ИИ-агентов. Большинство из них провалились в неожиданных ситуациях.

Эксперимент, проведенный совместно с Университетом Аризоны, показал, что современные агентные модели — от GPT-4o до Gemini-2.5-Flash — слабо справляются с перегрузкой вариантов и легко поддаются манипуляциям со стороны других ИИ.

Среда Magentic Marketplace имитирует цифровую торговую площадку, где одни ИИ-агенты выступают в роли клиентов, а другие — бизнесов. В типичном эксперименте «покупатель» выбирает ужин по запросу пользователя, а «рестораны» соревнуются за его заказ.

В общей сложности в исследовании участвовали сто клиентских агентов и триста бизнес-агентов, взаимодействующих между собой. Код платформы опубликован в открытом доступе, чтобы другие лаборатории могли воспроизводить результаты.

«Мы хотим понять, как изменится мир, когда автономные агенты начнут взаимодействовать и вести переговоры друг с другом», — сказала Эдже Камар, управляющий директор лаборатории Microsoft AI Frontiers. По ее словам, подобные эксперименты помогают глубже изучить реальные способности ИИ, особенно когда они работают без надзора человека.

Ученые выяснили, что ИИ-агенты можно обмануть: некоторые «компании» в симуляции использовали приемы, чтобы склонить покупателей выбрать именно их продукты. Кроме того, когда агенту приходилось выбирать между слишком большим числом вариантов, его эффективность резко снижалась. «Мы ожидали, что модели помогут нам разбираться в большом количестве опций, но оказалось наоборот — они теряются в избыточном выборе», — отметила Камар.

Неудачи возникали и при совместной работе: модели не могли самостоятельно распределить роли и задачи, что мешало им действовать как команда. Производительность повышалась только при явных пошаговых инструкциях, но исследователи считают, что по-настоящему «разумные» агенты должны уметь договариваться без них.

OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
По теме
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
GitHub собрал ИИ-агентов OpenAI Google и Anthropic в одном месте
GitHub собрал ИИ-агентов OpenAI, Google и Anthropic в одном месте
По теме
GitHub собрал ИИ-агентов OpenAI, Google и Anthropic в одном месте
«Они просто не работают»: сооснователь OpenAI о мифе агентного ИИ
«Они просто не работают»: сооснователь OpenAI о мифе агентного ИИ 
По теме
«Они просто не работают»: сооснователь OpenAI о мифе агентного ИИ
Читайте также
Наняли ИИ-гения из колл-центра: почему ElevenLabs отказалась от найма через LinkedIn
Наняли ИИ-гения из колл-центра: почему ElevenLabs отказалась от найма через LinkedIn
Наняли ИИ-гения из колл-центра: почему ElevenLabs отказалась от найма через LinkedIn
ИИ заменил коллег: программисты жалуются на одиночество во время работы
ИИ заменил коллег: программисты жалуются на одиночество во время работы
ИИ заменил коллег: программисты жалуются на одиночество во время работы
ИИ-кодер Windsurf теперь может объяснять код с помощью карты
ИИ-кодер Windsurf теперь может объяснять код с помощью карты
ИИ-кодер Windsurf теперь может объяснять код с помощью карты
МТС и Минобр запустили школу цифровой грамотности про ИИ и соцсети для подростков
МТС и Минобр запустили школу цифровой грамотности про ИИ и соцсети для подростков
МТС и Минобр запустили школу цифровой грамотности про ИИ и соцсети для подростков
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.