OpenAI выпустила симулятор Neural MMO для тренировки большого количества агентов обучения с подкреплением в PRG-средах, пишет VentureBeat.
Платформа Neural MMO создаёт «тайловые» окружения, состоящие из плиток заданного размера: проходимых, например лес или трава, и непроходимых (вода или камень). Задача ботов — собрать ограниченные в каждый момент времени ресурсы (еду и воду) и атаковать противников (команды других агентов). Уничтожение соперников означает меньшую конкуренцию за ресурсы, и соответственно, более высокую вероятность выживания. Вознаграждение агенты получают за то, что продержались в игре максимально долго.
Исследователи обнаружили, что чем дольше агенты взаимодействовали друг с другом, тем лучше становились в определённых задачах, а увеличение числа параллельных агентов стимулировало поиск ресурсов. Также исследователи заметили, что с увеличением своей численности агенты стремились рассредоточиться по разным частям карты с достаточным количеством ресурсов, и что агенты, тренируемые в более крупных средах стабильно превосходили тех, которые обучались на менее масштабных локациях.
Neural MMO поддерживает до 100 млн жизней 128 одновременно обучаемых агентов на 100 параллельных игровых серверах. Разработчики могут использовать симулятор для создания своих алгоритмов обучения с подкреплением для применения в ботах для ММО-игр. Симулятор доступен на GitHub.
По словам OpenAI, многоагентные окружения показали свою эффективность для исследований глубокого обучения с подкреплением. Но несмотря на прогресс, есть две проблемы. Необходимо создавать задачи открытого типа с высоким потолком сложности: нынешние среды либо сложны, но слишком «узки», либо открыты и слишком просты. Также требуется больше эталонных сред для измерения успешности обучения в присутствии множества агентов и их живучести. Жанр массовых многопользовательских онлайн-игр имитирует большую экосистему с переменным числом игроков, борющихся за выживание в разнообразных средах.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.