новости ИИ: Google представляет Agentic Vision в Gemini 3 Flash
Google представляет Agentic Vision в Gemini 3 Flash для активного понимания изображений.
Новая функция Agentic Vision в Gemini 3 Flash меняет подход к анализу изображений, превращая его в активный процесс с использованием инструментов и визуальных доказательств. Модель больше не просто просматривает изображение, а планирует его изучение, выполняет код и повторно анализирует измененное изображение.
Благодаря интеграции с Python, Gemini 3 Flash демонстрирует улучшение качества на 5–10% в большинстве тестов компьютерного зрения. Модель способна обрезать, масштабировать, аннотировать изображения, выполнять вычисления и даже создавать графики для более точного анализа.
Ключевой особенностью является "цикл мышления, действия и наблюдения". Модель сначала анализирует запрос и изображение, разрабатывает план, затем выполняет Python-код для манипулирования изображением, и наконец, пересматривает измененное изображение для получения ответа.
Agentic Vision уже доступна через Gemini API в Google AI Studio и Vertex AI, а также постепенно внедряется в приложение Gemini. Она позволяет разработчикам создавать более точные и надежные решения для обработки изображений.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.