Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Без шестого пальца: Gemini научилась анализировать изображения по шагам

Компания представила новую функцию Agentic Vision для модели Gemini 3 Flash, которая делает работу с изображениями заметно точнее за счет «привязки ответов к визуальным доказательствам».

Оставить комментарий
Без шестого пальца: Gemini научилась анализировать изображения по шагам

Компания представила новую функцию Agentic Vision для модели Gemini 3 Flash, которая делает работу с изображениями заметно точнее за счет «привязки ответов к визуальным доказательствам».

Ранее ИИ-модели Google анализировали изображения как единый статичный кадр: если модель не замечала мелкую деталь — номер на микросхеме или знак вдали, — ей приходилось угадывать. Agentic Vision меняет этот подход и превращает зрение в активный процесс исследования.

Новая система работает по циклу Think — Act — Observe. Сначала модель анализирует запрос и изображение и строит пошаговый план. Затем она генерирует и исполняет Python-код: увеличивает фрагменты, обрезает изображения, делает аннотации или проводит вычисления. После этого изменtнное изображение добавляется в контекст, и модель проверяет результаты перед финальным ответом. Такой подход позволяет опираться не на вероятностные догадки, а на проверяемые действия.

Например, при подсчете пальцев на руке Gemini 3 Flash не просто описывает изображение, а рисует рамки и нумерует каждый палец. Этот «визуальный черновик» снижает риск ошибок и делает ответ пиксельно точным. В задачах с таблицами и визуальной математикой модель выносит расчеты в детерминированную Python-среду и строит графики, избегая типичных галлюцинаций.

По данным Google, включение Agentic Vision дает стабильный прирост качества на 5–10% на большинстве визуальных бенчмарков для Gemini 3 Flash. Функция уже начала появляться в приложении Gemini при выборе режима Thinking, а для разработчиков она доступна через Gemini API в Google AI Studio и Vertex AI.

В дальнейшем Google планирует расширить возможности Agentic Vision: сделать такие действия, как поворот изображений или визуальные вычисления, полностью автоматическими, а также добавить инструменты веб-поиска и обратного поиска по изображениям. Технологию также намерены распространить на другие модели Gemini.

LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
По теме
LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
Adobe Acrobat научился создавать презентации и подкасты из PDF
Adobe Acrobat научился создавать презентации и подкасты из PDF
По теме
Adobe Acrobat научился создавать презентации и подкасты из PDF
«Мы не знаем есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
«Мы не знаем, есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
По теме
«Мы не знаем, есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним
Глава киберзащиты США слил служебные документы в публичный ChatGPT
Глава киберзащиты США слил служебные документы в публичный ChatGPT
Глава киберзащиты США слил служебные документы в публичный ChatGPT
LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.