Categories: МИР

Новый уровень ИИ, Agentic Vision в Gemini 3 Flash видит мелочи и пишет код для анализа

Компания Google представила новую возможность для своей ИИ-модели Gemini 3 Flash — Agentic Vision, которая существенно расширяет способность системы анализировать сложные изображения, включая мелкие детали вроде серийных номеров или текста на сложных схемах. 

Обновление усиливает направление развития агентных моделей, которые не только генерируют ответы, но и выполняют промежуточные действия для достижения более точного результата.

В Google назвали это «новым рубежом возможностей ИИ». Agentic Vision внедряет визуальный цикл Think, Act, Observe («Думай, действуй, наблюдай») в задачи понимания изображений:

  • think (думай) — модель анализирует запрос пользователя и исходное изображение, формируя многошаговый план;
  • oct (действуй) — Gemini генерирует и выполняет Python-код для активной работы с изображением (кадрирование, поворот, аннотации) или его анализа (вычисления, подсчет объектов и т. п.);
  • Observe (наблюдай) — измененное изображение добавляется в контекст модели, что позволяет еи повторно оценить данные перед финальным ответом.

Благодаря этому Gemini 3 Flash лучше работает с детализированными визуальными данными. Среди ключевых механик:

  • планирование — создание пошаговой стратегии анализа изображения;
  • зумирование — автоматическое приближение к мелким элементам;
  • аннотации — возможность размечать изображение для «заземления» логики модели;
  • визуальная математика и построение графиков — разбор плотных таблиц и выполнение Python-кода для визуализации результатов.

Функция уже используется через API и демонстрируется в Google AI Studio, в частности:

  1. Детальная инспекция изображений: платформа PlanCheckSolver.com, которая применяет ИИ для проверки строительных планов, повысила точность на 5% после активации выполнения кода в Gemini 3 Flash. Модель генерирует Python-код для вырезания отдельных фрагментов (например, краев крыши или секций здания) и повторно добавляет их в контекст для проверки соответствия сложным нормам.
  2. Аннотация изображений: в примере из приложения Gemini модели нужно было посчитать пальцы на руке. Чтобы избежать ошибок, она использовала Python для нанесения ограничивающих рамок и числовых меток на каждый палец, создав «визуальный черновик» для точного подсчета.
  3. Визуальная математика: Agentic Vision позволяет обрабатывать плотные таблицы и строить графики через Matplotlib. Вместо вероятностных оценок модель передает вычисления в детерминированную Python-среду.

В Google сообщили, что это лишь начало развития Agentic Vision. Компания работает над тем, чтобы больше действий (например, вращение изображений или визуальная математика) запускались без явной подсказки пользователя.

Также исследуется интеграция новых инструментов — в частности веб-поиска и обратного поиска изображений, а возможность планируют распространить на другие размеры моделей Gemini, не только Flash.

Напомним, что ранее Apple подтвердила многолетнее партнерство с Google. Следующее поколение Apple Foundation Models будет построено на базе моделей Gemini и облачной инфраструктуры Google. Они станут основой функций Apple Intelligence, включая обновленную персонализированную Siri.

Rada Dar

Recent Posts

Карьера в БЭБ и бизнес-взлёт семьи, что обнаружили журналисты у Евгения Калугина

Жена руководителя Бюро экономической безопасности в Закарпатской области Евгения Калугина Алена за последние годы стала…

3 часа ago

Аптечная афера на 2 миллиарда. Генпрокуратура раскрыла масштабную налоговую схему

Генеральный прокурор Руслан Кравченко сообщил о прекращении масштабной схемы, в результате которой аптечные сети якобы…

4 часа ago

Жадность как приговор, почему в Одесской области силовиков массово сдают ГБР

Жадность как приговор: как в Одесской области силовиков предают свои же, а ГБР пожинает «урожай».…

5 часов ago

Секретные соглашения при Сироте, кто и зачем получил миллиарды на «антидроновую защиту»

Пять миллиардов без тендеров и открытости: как «Укргидроэнерго» при Сироте передало защиту энергообъектов компании из…

6 часов ago

От госзаказов до долгов, вокруг компаний Панченко вспыхнул громкий финансовый скандал

В редакцию антимошеннического проекта 190.today обратились предприниматели, утверждающие, что стали жертвами масштабной финансовой схемы, в…

8 часов ago

Дом, Tesla и тендеры. Что не задекларировал следователь ГБР Игорь Гончарук

Старший следователь Главного следственного управления Государственного бюро расследований Игорь Гончарук не задекларировал бизнес своей жены-миллионерши,…

9 часов ago

This website uses cookies.