Gemini 2.5: Bilder verstehen und segmentieren per Konversation
Google hat mit Gemini 2.5 einen weiteren Schritt in Richtung natürlichsprachlicher Bilderkennung gemacht. Das neue KI-Modell kann nicht nur Objekte in Bildern erkennen, sondern versteht auch komplexe Beschreibungen und Zusammenhänge. Die Entwicklung der Bilderkennung hat sich laut Google in den letzten Jahren stark weiterentwickelt. Während frühere Systeme lediglich rechteckige Markierungen um erkannte Objekte zeichnen konnten, sind heute präzise Umrisse möglich. Gemini 2.5 geht noch einen Schritt weiter und versteht natürlichsprachliche Anfragen.
Das System kann beispielsweise auf die Aufforderung „zeige mir die Person, die den Regenschirm hält“ reagieren oder „das dritte Buch von links“ identifizieren. Auch abstraktere Konzepte wie „beschädigte Bereiche“ oder „unordentliche Stellen“ erkennt die KI zuverlässig.
Ein interessantes Feature ist die Mehrsprachigkeit. Gemini 2.5 versteht Anfragen in verschiedenen Sprachen und kann Objekte entsprechend beschriften. Auch Text in Bildern wird erkannt und in die Analyse einbezogen, etwa um ein bestimmtes Gebäckstück in einer Auslage zu identifizieren.
Die Anwendungsmöglichkeiten sind laut des Unternehmens vielfältig: Designer können komplexe Auswahlwerkzeuge durch natürlichsprachliche Befehle ersetzen. Im Arbeitsschutz lassen sich Verstöße gegen Sicherheitsvorschriften automatisch erkennen. Versicherungen können Schäden an Gebäuden systematisch erfassen. China wird hellhörig.
Für Entwickler bietet Gemini 2.5 den Vorteil, dass keine spezialisierten Modelle mehr trainiert werden müssen. Eine einzige API ermöglicht den Zugriff auf die umfangreichen Fähigkeiten des Systems. Die Integration in bestehende Anwendungen sei damit deutlich einfacher als bei bisherigen Lösungen.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.


„China wird hellhörig.“
Du bist mindestens 5 Jahre zu spät dran:
https://www.hikvision.com/en/newsroom/blog/how-ai-powered-hard-hat-detection-is-keeping-workers-safe/