Обучение с подкреплением — один из методов тренировки искусственного интеллекта с помощью поощрения (или наказания). Обученные таким образом модели победили человека в го и освоили Dota 2. Сложность состоит в том, что моделям требуется слишком много времени на выполнения задачи, к тому же они не особенно гибки и стабильны. Это подтолкнуло Google к созданию открытого фреймворка обучения с подкреплением на основе своей библиотеки машинного обучения TensorFlow, пишет VentureBeat.
По словам исследователей команды Google Brain, которая занимается изучением ИИ, создатели фреймворка хотели стимулировать появление идей, которые в будущем могут лечь в основу инновационных открытий. Инструмент уже доступен на GitHub. Помимо фреймворка они также запустили ряд руководств по его использованию.
Главными целями разработчиков из Google Brain были гибкость, стабильность и воспроизводимость. Фреймворк имеет хорошо документированный код (15 файлов на Python) с упором на платформу для проверки ИИ-моделей на играх Arcade Learning Environment и четыре различных модели машинного обучения: DQN, C51, упрощённый вариант Rainbow и Implicit Quantile Network. Воспроизводимость результатов обеспечивает полное покрытие кода тестами и обучающие данные по 60 играм, поддерживаемым средой Arcade Learning Environment.
Также Google создала веб-сайт, на котором можно быстро визуализировать тренировочные запуски для нескольких моделей. Разработчикам станут доступны обученные модели, необработанная статистика логов, файлы событий TensorFlow и набор инструментов визуализации для программ TensorFlow.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.