Gemini 2.5: Bilder verstehen und segmentieren per Konversation

Google hat mit Gemini 2.5 einen weiteren Schritt in Richtung natürlichsprachlicher Bilderkennung gemacht. Das neue KI-Modell kann nicht nur Objekte in Bildern erkennen, sondern versteht auch komplexe Beschreibungen und Zusammenhänge. Die Entwicklung der Bilderkennung hat sich laut Google in den letzten Jahren stark weiterentwickelt. Während frühere Systeme lediglich rechteckige Markierungen um erkannte Objekte zeichnen konnten, sind heute präzise Umrisse möglich. Gemini 2.5 geht noch einen Schritt weiter und versteht natürlichsprachliche Anfragen.

Das System kann beispielsweise auf die Aufforderung „zeige mir die Person, die den Regenschirm hält“ reagieren oder „das dritte Buch von links“ identifizieren. Auch abstraktere Konzepte wie „beschädigte Bereiche“ oder „unordentliche Stellen“ erkennt die KI zuverlässig.

Ein interessantes Feature ist die Mehrsprachigkeit. Gemini 2.5 versteht Anfragen in verschiedenen Sprachen und kann Objekte entsprechend beschriften. Auch Text in Bildern wird erkannt und in die Analyse einbezogen, etwa um ein bestimmtes Gebäckstück in einer Auslage zu identifizieren.

Die Anwendungsmöglichkeiten sind laut des Unternehmens vielfältig: Designer können komplexe Auswahlwerkzeuge durch natürlichsprachliche Befehle ersetzen. Im Arbeitsschutz lassen sich Verstöße gegen Sicherheitsvorschriften automatisch erkennen. Versicherungen können Schäden an Gebäuden systematisch erfassen. China wird hellhörig.

Für Entwickler bietet Gemini 2.5 den Vorteil, dass keine spezialisierten Modelle mehr trainiert werden müssen. Eine einzige API ermöglicht den Zugriff auf die umfangreichen Fähigkeiten des Systems. Die Integration in bestehende Anwendungen sei damit deutlich einfacher als bei bisherigen Lösungen.

Angebot
UGREEN 2.4G Maus kabellos mit 4000 DPI, Ergonomisches Design, Wireless Mouse mit USB Empfänger, 18 Monate...
  • Ergonomisches Design:UGREEN Maus ist nach ergonomischen Prinzipien gestaltet und passt sich der...

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei X, Threads, Facebook, LinkedIn und Instagram.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Ein Kommentar

  1. „China wird hellhörig.“

    Du bist mindestens 5 Jahre zu spät dran:

    https://www.hikvision.com/en/newsroom/blog/how-ai-powered-hard-hat-detection-is-keeping-workers-safe/

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.