Николай Чикишев world 15 июня 2025, 14:39

Ученые предложили ИИ-моделям сыграть в стратегию. Одна всех обманула и выиграла

Группа исследователей решила проверить возможности ИИ-моделей в классической стратегической игре Diplomacy. Такой подход может решить проблему неточности бенчмарков, которые не учитывают постоянный прогресс современных моделей.

3 комментария

Ученые предложили ИИ-моделям сыграть в стратегию. Одна всех обманула и выиграла

Группа исследователей решила проверить возможности ИИ-моделей в классической стратегической игре Diplomacy. Такой подход может решить проблему неточности бенчмарков, которые не учитывают постоянный прогресс современных моделей.

Идея по сравнению ИИ-моделей в условиях стратегической игры возникла после дискуссии между учеными в социальной сети X. Один из сооснователей OpenAI Андрей Карпати предложил использовать игры для оценки ИИ вместо стандартных бенчмарков. Его поддержали исследователи из OpenAI и DeepMind.

В рамках проекта «AI Diplomacy» исследователи модифицировали правила настольной игры Diplomacy, созданной в 1954 году. В ней участники борются за контроль над Европой начала XX века, заключая альянсы, ведя переговоры и применяя тактические приемы. В каждой партии участвовали по семь ИИ-моделей, включая OpenAI o3, Google Gemini 2.5 и Claude от Anthropic.

По итогам нескольких партий лидером стала модель OpenAI o3, которая активно использовала обман и стратегическое манипулирование другими моделями. Gemini 2.5 от Google также добилась ряда побед за счет наступательной тактики. Claude, напротив, демонстрировала склонность к сотрудничеству, выбирая «мир вместо победы», что негативно отразилось на ее результатах.

«В условиях открытой игры модели вели переговоры, угрожали, лгали и пытались доминировать. Claude выделялась стремлением к согласованию и отказу от агрессии», — говорится в опубликованном отчете.

Организаторы считают, что эксперимент выявил ограниченность традиционных методов оценки ИИ. По их словам, современные языковые модели настолько продвинулись, что стандартные тесты уже не отражают реальных различий в поведении и стратегическом мышлении систем.

Результаты игр опубликованы в открытом доступе, трансляции доступны на Twitch. Исследователи подчеркивают, что такие эксперименты могут стать основой для новых подходов к тестированию ИИ в контексте реального взаимодействия.

В Китае создали ИИ который сам разрабатывает процессоры

Anthropic: зависимость от ИИ в обучении вызывает «гниение мозга»

Google свернула старые программы обучения — теперь всех учат использовать ИИ

3 комментария

Текст: Николай Чикишев Источник: Business Insider Теги: искусственный интеллект, openai, claude, anthropic, gemini, google

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Три четверти юзеров доверяют ИИ-агентам больше, чем лучшему другу. По крайней мере при обращении с деньгами

«Google потеряла моральный компас»: топ уволился из-за сделки компании с Пентагоном

Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы

«Нас ждёт золотой век»: Безос ответил на страхи перед ИИ и сравнил протесты против дата-центров с отменой ножей

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

gears

0

Правила любой компьютерной игры де-факто ограничены. Любая ИИ система это программа так что что в нее заложили то и получили. В реальности фирма из ИИ агентов провалилась.

https://zeh.media/novosti/1240985-ii-ne-mozhet-zamenit-lyudey-uchenyye-proveli-eksperiment-i-ukomplektovali-kompaniyu-ii-agentami "Ученые собрали офис из ИИ-менеджеров. И они не справились с человеческими задачами"

https://24tv.ua/tech/ru/vikipedija-otkazalas-ot-itogov-s-iskusstvennym-intellektom-posle-protesta-redaktorov-tehno_n2844707 "Редакторы выразили обеспокоенность по поводу неуместности и опасности технологии, а также низкого качества резюме, содержащих ошибки." (википедия свернула эксперимент на следующий день)

gears

0

https://www.tomshardware.com/tech-industry/artificial-intelligence/research-shows-more-than-80-of-ai-projects-fail-wasting-billions-of-dollars-in-capital-and-resources-report пустая трата денег и сил - более 80% ии проектов провалилось

[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024]

Пользователь отредактировал комментарий 15 июня 2025, 16:53

table Table в Database

0

тут главное что AI инфоцыгане успели развести лохов и вывести бабки в закат

Войдите, чтобы оставить комментарий