Дапамажыце dev.by 🤍
Падтрымаць

Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках

Кампанія прэзентавала новую функцыю Agentic Vision для мадэлі Gemini 3 Flash, якая робіць працу з выявамі значна дакладнейшай за кошт «прывязкі адказаў да візуальных доказаў».

Пакінуць каментарый
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках

Кампанія прэзентавала новую функцыю Agentic Vision для мадэлі Gemini 3 Flash, якая робіць працу з выявамі значна дакладнейшай за кошт «прывязкі адказаў да візуальных доказаў».

Раней ШІ-мадэлі Google аналізавалі выявы як адзіны статычны кадр: калі мадэль не заўважала дробную дэталь — нумар на мікрасхеме ці знак удалечыні, — ёй даводзілася здагадвацца. Agentic Vision змяняе гэты падыход і ператварае зрок у актыўны працэс даследавання.

Новая сістэма працуе па цыклу Think — Act — Observe. Спачатку мадэль аналізуе запыт і выяву і будуе паэтапны план. Затым яна генеруе і выконвае Python-код: павялічвае фрагменты, абразае выявы, робіць анатацыі або праводзіць вылічэнні. Пасля гэтага змененая выява дадаецца ў кантэкст, і мадэль правярае вынікі перад фінальным адказам. Такі падыход дазваляе абапірацца не на верагоднасныя здагадкі, а на правяральныя дзеянні.

Напрыклад, пры падліку пальцаў на руцэ Gemini 3 Flash не проста апісвае выяву, а малюе рамкі і нумеруе кожны палец. Гэты «візуальны чарнавік» зніжае рызыку памылак і робіць адказ піксельна дакладным. У задачах з табліцамі і візуальнай матэматыкай мадэль выносіць разлікі ў дэтэрмінаванае Python-асяроддзе і будуе графікі, пазбягаючы тыповых галюцынацый.

Паводле дадзеных Google, уключэнне Agentic Vision дае стабільны прырост якасці на 5–10% на большасці візуальных бенчмаркаў для Gemini 3 Flash. Функцыя ўжо пачала з’яўляцца ў аплікацыі Gemini пры выбары рэжыму Thinking, а для распрацоўшчыкаў яна даступная праз Gemini API ў Google AI Studio і Vertex AI.

У далейшым Google плануе пашырыць магчымасці Agentic Vision: зрабіць такія дзеянні, як паварот выяваў ці візуальныя вылічэнні, цалкам аўтаматычнымі, а таксама дадаць інструменты вэб-пошуку і зваротнага пошуку па выявах. Тэхналогію таксама намераныя распаўсюдзіць на іншыя мадэлі Gemini.

LinkedIn пачне выдаваць сертыфікаты па вайб-кодынгу і ШІ-навыках
LinkedIn пачне выдаваць сертыфікаты па вайб-кодынгу і ШІ-навыках
Па тэме
LinkedIn пачне выдаваць сертыфікаты па вайб-кодынгу і ШІ-навыках
Adobe Acrobat навучыўся ствараць прэзентацыі і падкасты з PDF
Adobe Acrobat навучыўся ствараць прэзентацыі і падкасты з PDF
Па тэме
Adobe Acrobat навучыўся ствараць прэзентацыі і падкасты з PDF
«Мы не ведаем ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
«Мы не ведаем, ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
Па тэме
«Мы не ведаем, ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
Чытайце таксама
Gemini навучылася карыстацца браўзэрам, як чалавек
Gemini навучылася карыстацца браўзэрам, як чалавек
Gemini навучылася карыстацца браўзэрам, як чалавек
Google прэзентавала Gemini 3 Flash — новая мадэль бясплатная для ўсіх
Google прэзентавала Gemini 3 Flash — новая мадэль бясплатная для ўсіх
Google прэзентавала Gemini 3 Flash — новая мадэль бясплатная для ўсіх
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках
Google прадставіла Gemini 3.1 Flash-Lite — у восем разоў таннейшы за Pro
Google прадставіла Gemini 3.1 Flash-Lite — у восем разоў таннейшы за Pro
Google прадставіла Gemini 3.1 Flash-Lite — у восем разоў таннейшы за Pro

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.