Categories: МИР

Новый уровень ИИ, Agentic Vision в Gemini 3 Flash видит мелочи и пишет код для анализа

Компания Google представила новую возможность для своей ИИ-модели Gemini 3 Flash — Agentic Vision, которая существенно расширяет способность системы анализировать сложные изображения, включая мелкие детали вроде серийных номеров или текста на сложных схемах. 

Обновление усиливает направление развития агентных моделей, которые не только генерируют ответы, но и выполняют промежуточные действия для достижения более точного результата.

В Google назвали это «новым рубежом возможностей ИИ». Agentic Vision внедряет визуальный цикл Think, Act, Observe («Думай, действуй, наблюдай») в задачи понимания изображений:

  • think (думай) — модель анализирует запрос пользователя и исходное изображение, формируя многошаговый план;
  • oct (действуй) — Gemini генерирует и выполняет Python-код для активной работы с изображением (кадрирование, поворот, аннотации) или его анализа (вычисления, подсчет объектов и т. п.);
  • Observe (наблюдай) — измененное изображение добавляется в контекст модели, что позволяет еи повторно оценить данные перед финальным ответом.

Благодаря этому Gemini 3 Flash лучше работает с детализированными визуальными данными. Среди ключевых механик:

  • планирование — создание пошаговой стратегии анализа изображения;
  • зумирование — автоматическое приближение к мелким элементам;
  • аннотации — возможность размечать изображение для «заземления» логики модели;
  • визуальная математика и построение графиков — разбор плотных таблиц и выполнение Python-кода для визуализации результатов.

Функция уже используется через API и демонстрируется в Google AI Studio, в частности:

  1. Детальная инспекция изображений: платформа PlanCheckSolver.com, которая применяет ИИ для проверки строительных планов, повысила точность на 5% после активации выполнения кода в Gemini 3 Flash. Модель генерирует Python-код для вырезания отдельных фрагментов (например, краев крыши или секций здания) и повторно добавляет их в контекст для проверки соответствия сложным нормам.
  2. Аннотация изображений: в примере из приложения Gemini модели нужно было посчитать пальцы на руке. Чтобы избежать ошибок, она использовала Python для нанесения ограничивающих рамок и числовых меток на каждый палец, создав «визуальный черновик» для точного подсчета.
  3. Визуальная математика: Agentic Vision позволяет обрабатывать плотные таблицы и строить графики через Matplotlib. Вместо вероятностных оценок модель передает вычисления в детерминированную Python-среду.

В Google сообщили, что это лишь начало развития Agentic Vision. Компания работает над тем, чтобы больше действий (например, вращение изображений или визуальная математика) запускались без явной подсказки пользователя.

Также исследуется интеграция новых инструментов — в частности веб-поиска и обратного поиска изображений, а возможность планируют распространить на другие размеры моделей Gemini, не только Flash.

Напомним, что ранее Apple подтвердила многолетнее партнерство с Google. Следующее поколение Apple Foundation Models будет построено на базе моделей Gemini и облачной инфраструктуры Google. Они станут основой функций Apple Intelligence, включая обновленную персонализированную Siri.

Rada Dar

Recent Posts

Дроны и боевое искусство, как хортинг объединяет спорт и армию Украины

Чемпионат Украины по хортингу собрал спортсменов, тренеров и военных. Здесь говорят не только о спорте.…

2 дня ago

Недостоверная декларация, депутата во Львовской области подозревают в сокрытии имущества

Депутат Львовского районного совета получила подозрение во внесении недостоверной информации в декларацию за 2022 год. По данным…

2 дня ago

Первый заместитель гендиректора завода в Днепропетровской области нажился на закупках сырья для ВСУ на миллионы

Контрразведка СБУ и НАБУ разоблачили схему присвоения государственных средств на стратегическом предприятии оборонно-промышленного комплекса в Днепропетровской области.…

2 дня ago

В Раде обсуждают изменения закона о мобилизации, новые правила отсрочек и учета

В Верховной Раде обсуждают изменения в законопроект о мобилизации, которые могут существенно изменить правила отсрочок…

2 дня ago

Уголовное производство против Наталии Кушнир за недостоверное декларирование имущества

У бывшей главы Житомирской городской медико-социальной экспертной комиссии № 2 Наталии Кушнир выявлены недостоверные сведения…

2 дня ago

История поставщика, Андрей Лябогов и его днепровские бизнес-проекты снова выигрывают тендеры

АК «Укргаздобыча» 20 февраля по результатам тендера заказала ООО «Торговая трубная компания» барита на 111,09…

2 дня ago

This website uses cookies.