🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Gemini научилась пользоваться браузером, как человек

Компания представила новую версию ИИ-модели Gemini 2.5 Computer Use, способную самостоятельно управлять веб-браузером и мобильными интерфейсами. Теперь агенты могут выполнять действия внутри обычных пользовательских интерфейсов: заполнять формы, кликать по кнопкам и даже перетаскивать элементы на экране.

Оставить комментарий
Gemini научилась пользоваться браузером, как человек

Компания представила новую версию ИИ-модели Gemini 2.5 Computer Use, способную самостоятельно управлять веб-браузером и мобильными интерфейсами. Теперь агенты могут выполнять действия внутри обычных пользовательских интерфейсов: заполнять формы, кликать по кнопкам и даже перетаскивать элементы на экране.

Модель использует визуальное восприятие и контекстное рассуждение для анализа запросов пользователя и последовательного выполнения действий. Алгоритм работает в цикле: система получает скриншот интерфейса, текстовую инструкцию и историю предыдущих действий, после чего генерирует команду — например, клик, ввод текста или прокрутку. Затем обновленное изображение экрана возвращается модели, и процесс повторяется.

Gemini 2.5 Computer Use пока оптимизирована только для работы в браузере и не предназначена для управления на уровне операционной системы. Модель поддерживает 13 видов действий, включая открытие сайтов, набор текста, нажатие кнопок и навигацию по страницам. Google заявляет, что в тестах система превзошла аналоги — включая решения от OpenAI и Anthropic — по результатам на бенчмарках Online-Mind2Web, WebVoyager и AndroidWorld, достигнув более 70% точности при среднем времени отклика около 225 секунд.

Компания подчеркивает, что большое внимание уделено безопасности. В модель встроен поэтапный механизм проверки действий, который предотвращает опасные операции или вмешательство в чувствительные области, например попытки обойти CAPTCHA или управлять медицинскими устройствами. Разработчики также могут настраивать уровни подтверждения для выполнения определенных команд.

Новая модель уже используется внутри Google для тестирования интерфейсов и проектов вроде Project Mariner, Firebase Testing Agent и AI Mode в поиске. Gemini 2.5 Computer Use доступна разработчикам через Google AI Studio и Vertex AI, а демонстрационную версию можно увидеть на платформе Browserbase, где модель выполняет задания вроде «сыграй в 2048» или «просмотри горячие темы на Hacker News».

ИИ-браузер Comet может красть ваши данные. Perplexity: ничего страшного
ИИ-браузер Comet может красть ваши данные. Perplexity: ничего страшного
По теме
ИИ-браузер Comet может красть ваши данные. Perplexity: ничего страшного
Perplexity сделала ИИ-браузер Comet бесплатным
Perplexity сделала ИИ-браузер Comet бесплатным
По теме
Perplexity сделала ИИ-браузер Comet бесплатным
Opera представила ИИ-браузер который умеет писать код
Opera представила ИИ-браузер, который умеет писать код
По теме
Opera представила ИИ-браузер, который умеет писать код
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
ИИ-проект Google превращает нудные книжки в персонализированные материалы для учёбы
ИИ-проект Google превращает нудные книжки в персонализированные материалы для учёбы
ИИ-проект Google превращает нудные книжки в персонализированные материалы для учёбы
Google предлагает сделку: Gemini станет персональнее в обмен на ваши данные
Google предлагает сделку: Gemini станет персональнее в обмен на ваши данные
Google предлагает сделку: Gemini станет персональнее в обмен на ваши данные
1 комментарий
Без шестого пальца: Gemini научилась анализировать изображения по шагам
Без шестого пальца: Gemini научилась анализировать изображения по шагам
Без шестого пальца: Gemini научилась анализировать изображения по шагам
Google открыла функцию персонального ИИ для всех пользователей Gemini
Google открыла функцию персонального ИИ для всех пользователей Gemini
Google открыла функцию персонального ИИ для всех пользователей Gemini

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.