Agentic Vision in Gemini 3 Flash: Neue Bildanalyse-Funktion

Google hat Agentic Vision als neue Funktion in seinem Gemini 3 Flash Modell eingeführt. Diese Neuerung verändert die Bildanalyse von einem statischen Vorgang hin zu einem agentenbasierten Prozess. Dabei werden visuelles Denken und Code-Ausführung miteinander verknüpft, um Antworten auf visuellen Beweisen zu basieren. Rohan Doshi, Produktmanager bei Google DeepMind, stellte die Technologie vor.

Funktionsweise von Agentic Vision

Bisherige KI-Modelle wie Gemini verarbeiten die Welt oft in einem einzigen, statischen Blick. Wurden dabei feine Details übersehen, etwa eine Seriennummer auf einem Mikrochip oder ein entferntes Strassenschild, musste das Modell raten. Agentic Vision wandelt die Bilderkennung in eine aktive Untersuchung um. Durch die Kombination von visuellem Denken mit Code-Ausführung, einem der ersten von Agentic Vision unterstützten Tools, erstellt das Modell Pläne, um Bilder schrittweise zu vergrössern, zu inspizieren und zu manipulieren. Dies ermöglicht eine fundiertere Beantwortung basierend auf visuellen Belegen.

Die Integration der Code-Ausführung in Gemini 3 Flash führt laut Google zu einer konsistenten Qualitätsverbesserung von 5-10 Prozent bei den meisten Bilderkennungs-Benchmarks. Dies unterstreicht die Effizienz des neuen Ansatzes.

Der Think-Act-Observe-Zyklus

Agentic Vision implementiert einen agentenbasierten Think-Act-Observe-Zyklus für Bildverstehensaufgaben. Im «Think»-Schritt analysiert das Modell die Nutzeranfrage und das Ausgangsbild, um einen mehrstufigen Plan zu entwickeln. Anschliessend generiert und führt das Modell im «Act»-Schritt Python-Code aus, um Bilder aktiv zu bearbeiten – beispielsweise durch Zuschneiden, Drehen oder Hinzufügen von Anmerkungen – oder diese zu analysieren, etwa durch Berechnungen oder das Zählen von Objekten. Im «Observe»-Schritt wird das transformierte Bild dem Kontextfenster des Modells hinzugefügt. Dadurch kann das Modell die neuen Daten mit verbessertem Kontext prüfen, bevor es eine finale Antwort generiert.

Anwendungsbereiche und Ausblick

Durch die Aktivierung der Code-Ausführung in der API eröffnen sich zahlreiche neue Verhaltensweisen und Einsatzmöglichkeiten. Diese werden unter anderem in einer Demo-Anwendung in Google AI Studio präsentiert. Entwickler, von grossen Produkten wie der Gemini App bis hin zu kleineren Startups, haben bereits begonnen, die Funktion zu integrieren. Ein zentraler Anwendungsfall ist das Vergrössern und Inspizieren von Bildbereichen, was eine detailliertere Analyse ermöglicht.

Agentic Vision in Gemini 3 Flash: Neue Bildanalyse-Funktion

Funktionsweise von Agentic Vision

Der Think-Act-Observe-Zyklus

Anwendungsbereiche und Ausblick

Mehr zu AI

Warum du jetzt auf GEO setzen musst.

Universal Commerce Protocol (UCP) Guide

Cookie-Einstellungen