Ученые предложили ИИ-моделям сыграть в стратегию. Одна всех обманула и выиграла

Группа исследователей решила проверить возможности ИИ-моделей в классической стратегической игре Diplomacy. Такой подход может решить проблему неточности бенчмарков, которые не учитывают постоянный прогресс современных моделей.

3 комментария

Идея по сравнению ИИ-моделей в условиях стратегической игры возникла после дискуссии между учеными в социальной сети X. Один из сооснователей OpenAI Андрей Карпати предложил использовать игры для оценки ИИ вместо стандартных бенчмарков. Его поддержали исследователи из OpenAI и DeepMind.

В рамках проекта «AI Diplomacy» исследователи модифицировали правила настольной игры Diplomacy, созданной в 1954 году. В ней участники борются за контроль над Европой начала XX века, заключая альянсы, ведя переговоры и применяя тактические приемы. В каждой партии участвовали по семь ИИ-моделей, включая OpenAI o3, Google Gemini 2.5 и Claude от Anthropic.

По итогам нескольких партий лидером стала модель OpenAI o3, которая активно использовала обман и стратегическое манипулирование другими моделями. Gemini 2.5 от Google также добилась ряда побед за счет наступательной тактики. Claude, напротив, демонстрировала склонность к сотрудничеству, выбирая «мир вместо победы», что негативно отразилось на ее результатах.

«В условиях открытой игры модели вели переговоры, угрожали, лгали и пытались доминировать. Claude выделялась стремлением к согласованию и отказу от агрессии», — говорится в опубликованном отчете.

Организаторы считают, что эксперимент выявил ограниченность традиционных методов оценки ИИ. По их словам, современные языковые модели настолько продвинулись, что стандартные тесты уже не отражают реальных различий в поведении и стратегическом мышлении систем.

Результаты игр опубликованы в открытом доступе, трансляции доступны на Twitch. Исследователи подчеркивают, что такие эксперименты могут стать основой для новых подходов к тестированию ИИ в контексте реального взаимодействия.

В Китае создали ИИ, который сам разрабатывает процессоры
По теме
В Китае создали ИИ, который сам разрабатывает процессоры
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
По теме
Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»
Google свернула старые программы обучения — теперь всех учат использовать ИИ 
По теме
Google свернула старые программы обучения — теперь всех учат использовать ИИ

Читать на dev.by