Categories: МИР

Новый уровень ИИ, Agentic Vision в Gemini 3 Flash видит мелочи и пишет код для анализа

Компания Google представила новую возможность для своей ИИ-модели Gemini 3 Flash — Agentic Vision, которая существенно расширяет способность системы анализировать сложные изображения, включая мелкие детали вроде серийных номеров или текста на сложных схемах. 

Обновление усиливает направление развития агентных моделей, которые не только генерируют ответы, но и выполняют промежуточные действия для достижения более точного результата.

В Google назвали это «новым рубежом возможностей ИИ». Agentic Vision внедряет визуальный цикл Think, Act, Observe («Думай, действуй, наблюдай») в задачи понимания изображений:

  • think (думай) — модель анализирует запрос пользователя и исходное изображение, формируя многошаговый план;
  • oct (действуй) — Gemini генерирует и выполняет Python-код для активной работы с изображением (кадрирование, поворот, аннотации) или его анализа (вычисления, подсчет объектов и т. п.);
  • Observe (наблюдай) — измененное изображение добавляется в контекст модели, что позволяет еи повторно оценить данные перед финальным ответом.

Благодаря этому Gemini 3 Flash лучше работает с детализированными визуальными данными. Среди ключевых механик:

  • планирование — создание пошаговой стратегии анализа изображения;
  • зумирование — автоматическое приближение к мелким элементам;
  • аннотации — возможность размечать изображение для «заземления» логики модели;
  • визуальная математика и построение графиков — разбор плотных таблиц и выполнение Python-кода для визуализации результатов.

Функция уже используется через API и демонстрируется в Google AI Studio, в частности:

  1. Детальная инспекция изображений: платформа PlanCheckSolver.com, которая применяет ИИ для проверки строительных планов, повысила точность на 5% после активации выполнения кода в Gemini 3 Flash. Модель генерирует Python-код для вырезания отдельных фрагментов (например, краев крыши или секций здания) и повторно добавляет их в контекст для проверки соответствия сложным нормам.
  2. Аннотация изображений: в примере из приложения Gemini модели нужно было посчитать пальцы на руке. Чтобы избежать ошибок, она использовала Python для нанесения ограничивающих рамок и числовых меток на каждый палец, создав «визуальный черновик» для точного подсчета.
  3. Визуальная математика: Agentic Vision позволяет обрабатывать плотные таблицы и строить графики через Matplotlib. Вместо вероятностных оценок модель передает вычисления в детерминированную Python-среду.

В Google сообщили, что это лишь начало развития Agentic Vision. Компания работает над тем, чтобы больше действий (например, вращение изображений или визуальная математика) запускались без явной подсказки пользователя.

Также исследуется интеграция новых инструментов — в частности веб-поиска и обратного поиска изображений, а возможность планируют распространить на другие размеры моделей Gemini, не только Flash.

Напомним, что ранее Apple подтвердила многолетнее партнерство с Google. Следующее поколение Apple Foundation Models будет построено на базе моделей Gemini и облачной инфраструктуры Google. Они станут основой функций Apple Intelligence, включая обновленную персонализированную Siri.

Rada Dar

Recent Posts

ЕЦБ запускает стандарты для цифрового евро, что будет с платежами в Европе к 2027 году

Европейский центральный банк (ЕЦБ) планирует внедрить технические стандарты для дальнейшей интеграции цифрового евро (CBDC) летом…

1 неделя ago

НАБУ и САП рассматривают возможность расследования дела против Арахамии

СМИ, близкие к НАБУ и САП, намекают на вероятное возбуждение уголовного дела против лидера фракции…

1 неделя ago

Биткоин опережает золото, криптовалюта укрепляется на фоне падения цен на традиционные активы

Золото демонстрирует самую продолжительную серию падения в истории наблюдений — уже 10 дней подряд. Об…

1 неделя ago

Чиновница из Винниччины присваивала 2,7 млн грн с бюджета лицея

В Винницкой области разоблачили чиновницу, которая три года подряд превращала бюджет учебного заведения в свою…

1 неделя ago

Украина готовится к худшему зимнему сезону, дефицит энергии и рост цен на газ

Следующая зима может ударить сильнее – энергосистема до сих пор не восстановлена ​​после атак россиян.…

1 неделя ago

Энергетический парадокс, как избыточная «зеленая» энергия приводит к росту тарифов для украинцев

Масштабная ставка Украины на возобновляемую энергетику, еще недавно представлявшуюся как прорыв в будущее, сегодня обернулась серьезной финансовой…

1 неделя ago

This website uses cookies.