Support us

Ученые предложили ИИ-моделям сыграть в стратегию. Одна всех обманула и выиграла

Группа исследователей решила проверить возможности ИИ-моделей в классической стратегической игре Diplomacy. Такой подход может решить проблему неточности бенчмарков, которые не учитывают постоянный прогресс современных моделей.

3 комментария
Ученые предложили ИИ-моделям сыграть в стратегию. Одна всех обманула и выиграла

Группа исследователей решила проверить возможности ИИ-моделей в классической стратегической игре Diplomacy. Такой подход может решить проблему неточности бенчмарков, которые не учитывают постоянный прогресс современных моделей.

Идея по сравнению ИИ-моделей в условиях стратегической игры возникла после дискуссии между учеными в социальной сети X. Один из сооснователей OpenAI Андрей Карпати предложил использовать игры для оценки ИИ вместо стандартных бенчмарков. Его поддержали исследователи из OpenAI и DeepMind.

В рамках проекта «AI Diplomacy» исследователи модифицировали правила настольной игры Diplomacy, созданной в 1954 году. В ней участники борются за контроль над Европой начала XX века, заключая альянсы, ведя переговоры и применяя тактические приемы. В каждой партии участвовали по семь ИИ-моделей, включая OpenAI o3, Google Gemini 2.5 и Claude от Anthropic.

По итогам нескольких партий лидером стала модель OpenAI o3, которая активно использовала обман и стратегическое манипулирование другими моделями. Gemini 2.5 от Google также добилась ряда побед за счет наступательной тактики. Claude, напротив, демонстрировала склонность к сотрудничеству, выбирая «мир вместо победы», что негативно отразилось на ее результатах.

«В условиях открытой игры модели вели переговоры, угрожали, лгали и пытались доминировать. Claude выделялась стремлением к согласованию и отказу от агрессии», — говорится в опубликованном отчете.

Организаторы считают, что эксперимент выявил ограниченность традиционных методов оценки ИИ. По их словам, современные языковые модели настолько продвинулись, что стандартные тесты уже не отражают реальных различий в поведении и стратегическом мышлении систем.

Результаты игр опубликованы в открытом доступе, трансляции доступны на Twitch. Исследователи подчеркивают, что такие эксперименты могут стать основой для новых подходов к тестированию ИИ в контексте реального взаимодействия.

В Китае создали ИИ который сам разрабатывает процессоры
В Китае создали ИИ, который сам разрабатывает процессоры
По теме
В Китае создали ИИ, который сам разрабатывает процессоры
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
По теме
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
Google свернула старые программы обучения — теперь всех учат использовать ИИ
Google свернула старые программы обучения — теперь всех учат использовать ИИ 
По теме
Google свернула старые программы обучения — теперь всех учат использовать ИИ
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
Google урезает бюджеты, СЕО намекает на сокращения
Google урезает бюджеты, СЕО намекает на сокращения
Google урезает бюджеты, СЕО намекает на сокращения
2 комментария
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google
Bubble
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Правила любой компьютерной игры де-факто ограничены. Любая ИИ система это программа так что что в нее заложили то и получили. В реальности фирма из ИИ агентов провалилась.

https://zeh.media/novosti/1240985-ii-ne-mozhet-zamenit-lyudey-uchenyye-proveli-eksperiment-i-ukomplektovali-kompaniyu-ii-agentami "Ученые собрали офис из ИИ-менеджеров. И они не справились с человеческими задачами"

https://24tv.ua/tech/ru/vikipedija-otkazalas-ot-itogov-s-iskusstvennym-intellektom-posle-protesta-redaktorov-tehno_n2844707 "Редакторы выразили обеспокоенность по поводу неуместности и опасности технологии, а также низкого качества резюме, содержащих ошибки." (википедия свернула эксперимент на следующий день)

0

https://www.tomshardware.com/tech-industry/artificial-intelligence/research-shows-more-than-80-of-ai-projects-fail-wasting-billions-of-dollars-in-capital-and-resources-report пустая трата денег и сил - более 80% ии проектов провалилось

[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024]

Пользователь отредактировал комментарий 15 июня 2025, 16:53

table
table Table в Database
0

тут главное что AI инфоцыгане успели развести лохов и вывести бабки в закат