Support us

Gemini научилась пользоваться браузером, как человек

Компания представила новую версию ИИ-модели Gemini 2.5 Computer Use, способную самостоятельно управлять веб-браузером и мобильными интерфейсами. Теперь агенты могут выполнять действия внутри обычных пользовательских интерфейсов: заполнять формы, кликать по кнопкам и даже перетаскивать элементы на экране.

Оставить комментарий
Gemini научилась пользоваться браузером, как человек

Компания представила новую версию ИИ-модели Gemini 2.5 Computer Use, способную самостоятельно управлять веб-браузером и мобильными интерфейсами. Теперь агенты могут выполнять действия внутри обычных пользовательских интерфейсов: заполнять формы, кликать по кнопкам и даже перетаскивать элементы на экране.

Модель использует визуальное восприятие и контекстное рассуждение для анализа запросов пользователя и последовательного выполнения действий. Алгоритм работает в цикле: система получает скриншот интерфейса, текстовую инструкцию и историю предыдущих действий, после чего генерирует команду — например, клик, ввод текста или прокрутку. Затем обновленное изображение экрана возвращается модели, и процесс повторяется.

Gemini 2.5 Computer Use пока оптимизирована только для работы в браузере и не предназначена для управления на уровне операционной системы. Модель поддерживает 13 видов действий, включая открытие сайтов, набор текста, нажатие кнопок и навигацию по страницам. Google заявляет, что в тестах система превзошла аналоги — включая решения от OpenAI и Anthropic — по результатам на бенчмарках Online-Mind2Web, WebVoyager и AndroidWorld, достигнув более 70% точности при среднем времени отклика около 225 секунд.

Компания подчеркивает, что большое внимание уделено безопасности. В модель встроен поэтапный механизм проверки действий, который предотвращает опасные операции или вмешательство в чувствительные области, например попытки обойти CAPTCHA или управлять медицинскими устройствами. Разработчики также могут настраивать уровни подтверждения для выполнения определенных команд.

Новая модель уже используется внутри Google для тестирования интерфейсов и проектов вроде Project Mariner, Firebase Testing Agent и AI Mode в поиске. Gemini 2.5 Computer Use доступна разработчикам через Google AI Studio и Vertex AI, а демонстрационную версию можно увидеть на платформе Browserbase, где модель выполняет задания вроде «сыграй в 2048» или «просмотри горячие темы на Hacker News».

ИИ-браузер Comet может красть ваши данные. Perplexity: ничего страшного
ИИ-браузер Comet может красть ваши данные. Perplexity: ничего страшного
По теме
ИИ-браузер Comet может красть ваши данные. Perplexity: ничего страшного
Perplexity сделала ИИ-браузер Comet бесплатным
Perplexity сделала ИИ-браузер Comet бесплатным
По теме
Perplexity сделала ИИ-браузер Comet бесплатным
Opera представила ИИ-браузер который умеет писать код
Opera представила ИИ-браузер, который умеет писать код
По теме
Opera представила ИИ-браузер, который умеет писать код
Читайте также
ИИ за $60 в час оказался эффективнее хакеров в тестовом взломе
ИИ за $60 в час оказался эффективнее хакеров в тестовом взломе
ИИ за $60 в час оказался эффективнее хакеров в тестовом взломе
Google открыла разработчикам доступ к агенту Deep Research через API
Google открыла разработчикам доступ к агенту Deep Research через API
Google открыла разработчикам доступ к агенту Deep Research через API
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
1 комментарий
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.