Дапамажыце dev.by 🤍
Падтрымаць

Gemini навучылася карыстацца браўзэрам, як чалавек

Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.

Пакінуць каментарый
Gemini навучылася карыстацца браўзэрам, як чалавек

Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.

Мадэль выкарыстоўвае візуальнае ўспрыманне і кантэкстнае мысленне для аналізу запытаў карыстальніка і паслядоўнага выканання дзеянняў. Алгарытм працуе ў цыкле: сістэма атрымлівае скрыншот інтэрфейсу, тэкставую інструкцыю і гісторыю папярэдніх дзеянняў, пасля чаго генеруе каманду — напрыклад, клік, увод тэксту ці пракрутку. Затым абноўленая выява экрана вяртаецца мадэлі, і працэс паўтараецца.

Gemini 2.5 Computer Use пакуль аптымізавана толькі для працы ў браўзэры і не прызначана для кіравання на ўзроўні аперацыйнай сістэмы. Мадэль падтрымлівае 13 відаў дзеянняў, уключаючы адкрыццё сайтаў, набор тэксту, націсканне кнопак і навігацыю па старонках. Google сцвярджае, што ў тэстах сістэма перасягнула аналагі — уключаючы рашэнні ад OpenAI і Anthropic — па выніках на бенчмарках Online-Mind2Web, WebVoyager і AndroidWorld, дасягнуўшы больш за 70% дакладнасці пры сярэднім часе водгуку каля 225 секунд.

Кампанія падкрэслівае, што вялікая ўвага нададзена бяспецы. У мадэль убудаваны паэтапны механізм праверкі дзеянняў, які прадухіляе небяспечныя аперацыі або ўмяшанне ў адчувальныя вобласці, напрыклад спробы абысці CAPTCHA ці кіраваць медыцынскімі прыладамі. Распрацоўшчыкі таксама могуць наладжваць узроўні пацверджання для выканання пэўных каманд.

Новая мадэль ужо выкарыстоўваецца ўнутры Google для тэставання інтэрфейсаў і праектаў накшталт Project Mariner, Firebase Testing Agent і AI Mode у пошуку. Gemini 2.5 Computer Use даступна распрацоўшчыкам праз Google AI Studio і Vertex AI, а дэманстрацыйную версію можна ўбачыць на платформе Browserbase, дзе мадэль выконвае заданні накшталт «згуляй у 2048» ці «прагледзь гарачыя тэмы на Hacker News».

ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
Па тэме
ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Па тэме
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Opera прэзентавала ШІ-браўзер які ўмее пісаць код
Opera прэзентавала ШІ-браўзер, які ўмее пісаць код
Па тэме
Opera прэзентавала ШІ-браўзер, які ўмее пісаць код
Чытайце таксама
10+ сертификаций Coursera, которые помогут улучшить резюме и повысить зарплату
10+ сертификаций Coursera, которые помогут улучшить резюме и повысить зарплату
10+ сертификаций Coursera, которые помогут улучшить резюме и повысить зарплату
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
Приложение Трампа Truth Social заблокировано в Google Play
Приложение Трампа Truth Social заблокировано в Google Play
Приложение Трампа Truth Social заблокировано в Google Play
Google обновила дизайн поисковика. Похоже, зря
Google обновила дизайн поисковика. Похоже, зря
Google обновила дизайн поисковика. Похоже, зря
2 каментарыя

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.