Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Ученые предложили ИИ-моделям сыграть в стратегию. Одна всех обманула и выиграла

Группа исследователей решила проверить возможности ИИ-моделей в классической стратегической игре Diplomacy. Такой подход может решить проблему неточности бенчмарков, которые не учитывают постоянный прогресс современных моделей.

3 комментария
Ученые предложили ИИ-моделям сыграть в стратегию. Одна всех обманула и выиграла

Группа исследователей решила проверить возможности ИИ-моделей в классической стратегической игре Diplomacy. Такой подход может решить проблему неточности бенчмарков, которые не учитывают постоянный прогресс современных моделей.

Идея по сравнению ИИ-моделей в условиях стратегической игры возникла после дискуссии между учеными в социальной сети X. Один из сооснователей OpenAI Андрей Карпати предложил использовать игры для оценки ИИ вместо стандартных бенчмарков. Его поддержали исследователи из OpenAI и DeepMind.

В рамках проекта «AI Diplomacy» исследователи модифицировали правила настольной игры Diplomacy, созданной в 1954 году. В ней участники борются за контроль над Европой начала XX века, заключая альянсы, ведя переговоры и применяя тактические приемы. В каждой партии участвовали по семь ИИ-моделей, включая OpenAI o3, Google Gemini 2.5 и Claude от Anthropic.

По итогам нескольких партий лидером стала модель OpenAI o3, которая активно использовала обман и стратегическое манипулирование другими моделями. Gemini 2.5 от Google также добилась ряда побед за счет наступательной тактики. Claude, напротив, демонстрировала склонность к сотрудничеству, выбирая «мир вместо победы», что негативно отразилось на ее результатах.

«В условиях открытой игры модели вели переговоры, угрожали, лгали и пытались доминировать. Claude выделялась стремлением к согласованию и отказу от агрессии», — говорится в опубликованном отчете.

Организаторы считают, что эксперимент выявил ограниченность традиционных методов оценки ИИ. По их словам, современные языковые модели настолько продвинулись, что стандартные тесты уже не отражают реальных различий в поведении и стратегическом мышлении систем.

Результаты игр опубликованы в открытом доступе, трансляции доступны на Twitch. Исследователи подчеркивают, что такие эксперименты могут стать основой для новых подходов к тестированию ИИ в контексте реального взаимодействия.

В Китае создали ИИ который сам разрабатывает процессоры
В Китае создали ИИ, который сам разрабатывает процессоры
По теме
В Китае создали ИИ, который сам разрабатывает процессоры
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
По теме
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
Google свернула старые программы обучения — теперь всех учат использовать ИИ
Google свернула старые программы обучения — теперь всех учат использовать ИИ 
По теме
Google свернула старые программы обучения — теперь всех учат использовать ИИ
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Gemini стала хитом у разработчиков, но Google буксует c ИИ-продуктами
Gemini стала хитом у разработчиков, но Google буксует c ИИ-продуктами
Gemini стала хитом у разработчиков, но Google буксует c ИИ-продуктами
ИИ пока не уничтожает рабочие места, но делает их менее доступными для начинающих специалистов
ИИ пока не уничтожает рабочие места, но делает их менее доступными для начинающих специалистов
ИИ пока не уничтожает рабочие места, но делает их менее доступными для начинающих специалистов
Дал «суперспособности»: неайтишный продакт из Meta говорит, что ИИ перевернул его работу
Дал «суперспособности»: неайтишный продакт из Meta говорит, что ИИ перевернул его работу
Дал «суперспособности»: неайтишный продакт из Meta говорит, что ИИ перевернул его работу
ИИ «похоронил» пользователя в соцсетях и выдумал ему сына
ИИ «похоронил» пользователя в соцсетях и выдумал ему сына
ИИ «похоронил» пользователя в соцсетях и выдумал ему сына

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Правила любой компьютерной игры де-факто ограничены. Любая ИИ система это программа так что что в нее заложили то и получили. В реальности фирма из ИИ агентов провалилась.

https://zeh.media/novosti/1240985-ii-ne-mozhet-zamenit-lyudey-uchenyye-proveli-eksperiment-i-ukomplektovali-kompaniyu-ii-agentami "Ученые собрали офис из ИИ-менеджеров. И они не справились с человеческими задачами"

https://24tv.ua/tech/ru/vikipedija-otkazalas-ot-itogov-s-iskusstvennym-intellektom-posle-protesta-redaktorov-tehno_n2844707 "Редакторы выразили обеспокоенность по поводу неуместности и опасности технологии, а также низкого качества резюме, содержащих ошибки." (википедия свернула эксперимент на следующий день)

0

https://www.tomshardware.com/tech-industry/artificial-intelligence/research-shows-more-than-80-of-ai-projects-fail-wasting-billions-of-dollars-in-capital-and-resources-report пустая трата денег и сил - более 80% ии проектов провалилось

[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024]

Пользователь отредактировал комментарий 15 июня 2025, 16:53

table
table Table в Database
0

тут главное что AI инфоцыгане успели развести лохов и вывести бабки в закат