Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках
Кампанія прэзентавала новую функцыю Agentic Vision для мадэлі Gemini 3 Flash, якая робіць працу з выявамі значна дакладнейшай за кошт «прывязкі адказаў да візуальных доказаў».
Кампанія прэзентавала новую функцыю Agentic Vision для мадэлі Gemini 3 Flash, якая робіць працу з выявамі значна дакладнейшай за кошт «прывязкі адказаў да візуальных доказаў».
Кампанія прэзентавала новую функцыю Agentic Vision для мадэлі Gemini 3 Flash, якая робіць працу з выявамі значна дакладнейшай за кошт «прывязкі адказаў да візуальных доказаў».
Раней ШІ-мадэлі Google аналізавалі выявы як адзіны статычны кадр: калі мадэль не заўважала дробную дэталь — нумар на мікрасхеме ці знак удалечыні, — ёй даводзілася здагадвацца. Agentic Vision змяняе гэты падыход і ператварае зрок у актыўны працэс даследавання.
Новая сістэма працуе па цыклу Think — Act — Observe. Спачатку мадэль аналізуе запыт і выяву і будуе паэтапны план. Затым яна генеруе і выконвае Python-код: павялічвае фрагменты, абразае выявы, робіць анатацыі або праводзіць вылічэнні. Пасля гэтага змененая выява дадаецца ў кантэкст, і мадэль правярае вынікі перад фінальным адказам. Такі падыход дазваляе абапірацца не на верагоднасныя здагадкі, а на правяральныя дзеянні.
Напрыклад, пры падліку пальцаў на руцэ Gemini 3 Flash не проста апісвае выяву, а малюе рамкі і нумеруе кожны палец. Гэты «візуальны чарнавік» зніжае рызыку памылак і робіць адказ піксельна дакладным. У задачах з табліцамі і візуальнай матэматыкай мадэль выносіць разлікі ў дэтэрмінаванае Python-асяроддзе і будуе графікі, пазбягаючы тыповых галюцынацый.
Паводле дадзеных Google, уключэнне Agentic Vision дае стабільны прырост якасці на 5–10% на большасці візуальных бенчмаркаў для Gemini 3 Flash. Функцыя ўжо пачала з’яўляцца ў аплікацыі Gemini пры выбары рэжыму Thinking, а для распрацоўшчыкаў яна даступная праз Gemini API ў Google AI Studio і Vertex AI.
У далейшым Google плануе пашырыць магчымасці Agentic Vision: зрабіць такія дзеянні, як паварот выяваў ці візуальныя вылічэнні, цалкам аўтаматычнымі, а таксама дадаць інструменты вэб-пошуку і зваротнага пошуку па выявах. Тэхналогію таксама намераныя распаўсюдзіць на іншыя мадэлі Gemini.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.