Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Без шестого пальца: Gemini научилась анализировать изображения по шагам

Компания представила новую функцию Agentic Vision для модели Gemini 3 Flash, которая делает работу с изображениями заметно точнее за счет «привязки ответов к визуальным доказательствам».

Оставить комментарий
Без шестого пальца: Gemini научилась анализировать изображения по шагам

Компания представила новую функцию Agentic Vision для модели Gemini 3 Flash, которая делает работу с изображениями заметно точнее за счет «привязки ответов к визуальным доказательствам».

Ранее ИИ-модели Google анализировали изображения как единый статичный кадр: если модель не замечала мелкую деталь — номер на микросхеме или знак вдали, — ей приходилось угадывать. Agentic Vision меняет этот подход и превращает зрение в активный процесс исследования.

Новая система работает по циклу Think — Act — Observe. Сначала модель анализирует запрос и изображение и строит пошаговый план. Затем она генерирует и исполняет Python-код: увеличивает фрагменты, обрезает изображения, делает аннотации или проводит вычисления. После этого изменtнное изображение добавляется в контекст, и модель проверяет результаты перед финальным ответом. Такой подход позволяет опираться не на вероятностные догадки, а на проверяемые действия.

Например, при подсчете пальцев на руке Gemini 3 Flash не просто описывает изображение, а рисует рамки и нумерует каждый палец. Этот «визуальный черновик» снижает риск ошибок и делает ответ пиксельно точным. В задачах с таблицами и визуальной математикой модель выносит расчеты в детерминированную Python-среду и строит графики, избегая типичных галлюцинаций.

По данным Google, включение Agentic Vision дает стабильный прирост качества на 5–10% на большинстве визуальных бенчмарков для Gemini 3 Flash. Функция уже начала появляться в приложении Gemini при выборе режима Thinking, а для разработчиков она доступна через Gemini API в Google AI Studio и Vertex AI.

В дальнейшем Google планирует расширить возможности Agentic Vision: сделать такие действия, как поворот изображений или визуальные вычисления, полностью автоматическими, а также добавить инструменты веб-поиска и обратного поиска по изображениям. Технологию также намерены распространить на другие модели Gemini.

LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
По теме
LinkedIn начнёт выдавать сертификаты по вайб-кодингу и ИИ-навыкам
Adobe Acrobat научился создавать презентации и подкасты из PDF
Adobe Acrobat научился создавать презентации и подкасты из PDF
По теме
Adobe Acrobat научился создавать презентации и подкасты из PDF
«Мы не знаем есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
«Мы не знаем, есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
По теме
«Мы не знаем, есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
ИИ-агент Moltbot стал хитом среди программистов, но тревожит экспертов
ИИ-агент Moltbot стал хитом среди программистов, но тревожит экспертов
ИИ-агент Moltbot стал хитом среди программистов, но тревожит экспертов
1 комментарий
Сотрудники Google требуют защитить их от миграционных агентов США
Сотрудники Google требуют защитить их от миграционных агентов США
Сотрудники Google требуют защитить их от миграционных агентов США
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.