Без шестого пальца: Gemini научилась анализировать изображения по шагам
Компания представила новую функцию Agentic Vision для модели Gemini 3 Flash, которая делает работу с изображениями заметно точнее за счет «привязки ответов к визуальным доказательствам».
Компания представила новую функцию Agentic Vision для модели Gemini 3 Flash, которая делает работу с изображениями заметно точнее за счет «привязки ответов к визуальным доказательствам».
Ранее ИИ-модели Google анализировали изображения как единый статичный кадр: если модель не замечала мелкую деталь — номер на микросхеме или знак вдали, — ей приходилось угадывать. Agentic Vision меняет этот подход и превращает зрение в активный процесс исследования.
Новая система работает по циклу Think — Act — Observe. Сначала модель анализирует запрос и изображение и строит пошаговый план. Затем она генерирует и исполняет Python-код: увеличивает фрагменты, обрезает изображения, делает аннотации или проводит вычисления. После этого изменtнное изображение добавляется в контекст, и модель проверяет результаты перед финальным ответом. Такой подход позволяет опираться не на вероятностные догадки, а на проверяемые действия.
Например, при подсчете пальцев на руке Gemini 3 Flash не просто описывает изображение, а рисует рамки и нумерует каждый палец. Этот «визуальный черновик» снижает риск ошибок и делает ответ пиксельно точным. В задачах с таблицами и визуальной математикой модель выносит расчеты в детерминированную Python-среду и строит графики, избегая типичных галлюцинаций.
По данным Google, включение Agentic Vision дает стабильный прирост качества на 5–10% на большинстве визуальных бенчмарков для Gemini 3 Flash. Функция уже начала появляться в приложении Gemini при выборе режима Thinking, а для разработчиков она доступна через Gemini API в Google AI Studio и Vertex AI.
В дальнейшем Google планирует расширить возможности Agentic Vision: сделать такие действия, как поворот изображений или визуальные вычисления, полностью автоматическими, а также добавить инструменты веб-поиска и обратного поиска по изображениям. Технологию также намерены распространить на другие модели Gemini.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.