Дапамажыце dev.by 🤍
Падтрымаць

Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках

Кампанія прэзентавала новую функцыю Agentic Vision для мадэлі Gemini 3 Flash, якая робіць працу з выявамі значна дакладнейшай за кошт «прывязкі адказаў да візуальных доказаў».

Пакінуць каментарый
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках

Кампанія прэзентавала новую функцыю Agentic Vision для мадэлі Gemini 3 Flash, якая робіць працу з выявамі значна дакладнейшай за кошт «прывязкі адказаў да візуальных доказаў».

Раней ШІ-мадэлі Google аналізавалі выявы як адзіны статычны кадр: калі мадэль не заўважала дробную дэталь — нумар на мікрасхеме ці знак удалечыні, — ёй даводзілася здагадвацца. Agentic Vision змяняе гэты падыход і ператварае зрок у актыўны працэс даследавання.

Новая сістэма працуе па цыклу Think — Act — Observe. Спачатку мадэль аналізуе запыт і выяву і будуе паэтапны план. Затым яна генеруе і выконвае Python-код: павялічвае фрагменты, абразае выявы, робіць анатацыі або праводзіць вылічэнні. Пасля гэтага змененая выява дадаецца ў кантэкст, і мадэль правярае вынікі перад фінальным адказам. Такі падыход дазваляе абапірацца не на верагоднасныя здагадкі, а на правяральныя дзеянні.

Напрыклад, пры падліку пальцаў на руцэ Gemini 3 Flash не проста апісвае выяву, а малюе рамкі і нумеруе кожны палец. Гэты «візуальны чарнавік» зніжае рызыку памылак і робіць адказ піксельна дакладным. У задачах з табліцамі і візуальнай матэматыкай мадэль выносіць разлікі ў дэтэрмінаванае Python-асяроддзе і будуе графікі, пазбягаючы тыповых галюцынацый.

Паводле дадзеных Google, уключэнне Agentic Vision дае стабільны прырост якасці на 5–10% на большасці візуальных бенчмаркаў для Gemini 3 Flash. Функцыя ўжо пачала з’яўляцца ў аплікацыі Gemini пры выбары рэжыму Thinking, а для распрацоўшчыкаў яна даступная праз Gemini API ў Google AI Studio і Vertex AI.

У далейшым Google плануе пашырыць магчымасці Agentic Vision: зрабіць такія дзеянні, як паварот выяваў ці візуальныя вылічэнні, цалкам аўтаматычнымі, а таксама дадаць інструменты вэб-пошуку і зваротнага пошуку па выявах. Тэхналогію таксама намераныя распаўсюдзіць на іншыя мадэлі Gemini.

LinkedIn пачне выдаваць сертыфікаты па вайб-кодынгу і ШІ-навыках
LinkedIn пачне выдаваць сертыфікаты па вайб-кодынгу і ШІ-навыках
Па тэме
LinkedIn пачне выдаваць сертыфікаты па вайб-кодынгу і ШІ-навыках
Adobe Acrobat навучыўся ствараць прэзентацыі і падкасты з PDF
Adobe Acrobat навучыўся ствараць прэзентацыі і падкасты з PDF
Па тэме
Adobe Acrobat навучыўся ствараць прэзентацыі і падкасты з PDF
«Мы не ведаем ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
«Мы не ведаем, ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
Па тэме
«Мы не ведаем, ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
Чытайце таксама
ШІ-агент Moltbot стаў хітом сярод праграмістаў, але трывожыць экспертаў
ШІ-агент Moltbot стаў хітом сярод праграмістаў, але трывожыць экспертаў
ШІ-агент Moltbot стаў хітом сярод праграмістаў, але трывожыць экспертаў
Супрацоўнікі Google патрабуюць абароны ад міграцыйных агентаў ЗША
Супрацоўнікі Google патрабуюць абароны ад міграцыйных агентаў ЗША
Супрацоўнікі Google патрабуюць абароны ад міграцыйных агентаў ЗША
Старшыня OpenAI: вайб-кодынг застанецца назаўжды, але будучыня не за ім
Старшыня OpenAI: вайб-кодынг застанецца назаўжды, але будучыня не за ім
Старшыня OpenAI: вайб-кодынг застанецца назаўжды, але будучыня не за ім
Кіраўнік кіберабароны ЗША зліў службовыя дакументы ў публічны ChatGPT
Кіраўнік кіберабароны ЗША зліў службовыя дакументы ў публічны ChatGPT
Кіраўнік кіберабароны ЗША зліў службовыя дакументы ў публічны ChatGPT

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.