Gemini научилась пользоваться браузером, как человек
Компания представила новую версию ИИ-модели Gemini 2.5 Computer Use, способную самостоятельно управлять веб-браузером и мобильными интерфейсами. Теперь агенты могут выполнять действия внутри обычных пользовательских интерфейсов: заполнять формы, кликать по кнопкам и даже перетаскивать элементы на экране.
Модель использует визуальное восприятие и контекстное рассуждение для анализа запросов пользователя и последовательного выполнения действий. Алгоритм работает в цикле: система получает скриншот интерфейса, текстовую инструкцию и историю предыдущих действий, после чего генерирует команду — например, клик, ввод текста или прокрутку. Затем обновленное изображение экрана возвращается модели, и процесс повторяется.
Gemini 2.5 Computer Use пока оптимизирована только для работы в браузере и не предназначена для управления на уровне операционной системы. Модель поддерживает 13 видов действий, включая открытие сайтов, набор текста, нажатие кнопок и навигацию по страницам. Google заявляет, что в тестах система превзошла аналоги — включая решения от OpenAI и Anthropic — по результатам на бенчмарках Online-Mind2Web, WebVoyager и AndroidWorld, достигнув более 70% точности при среднем времени отклика около 225 секунд.
Компания подчеркивает, что большое внимание уделено безопасности. В модель встроен поэтапный механизм проверки действий, который предотвращает опасные операции или вмешательство в чувствительные области, например попытки обойти CAPTCHA или управлять медицинскими устройствами. Разработчики также могут настраивать уровни подтверждения для выполнения определенных команд.
Новая модель уже используется внутри Google для тестирования интерфейсов и проектов вроде Project Mariner, Firebase Testing Agent и AI Mode в поиске. Gemini 2.5 Computer Use доступна разработчикам через Google AI Studio и Vertex AI, а демонстрационную версию можно увидеть на платформе Browserbase, где модель выполняет задания вроде «сыграй в 2048» или «просмотри горячие темы на Hacker News».
Читать на dev.by