Gemini 2.5 Computer Use: Googles KI steuert jetzt Browser und Apps

Google möchte Gemini zu einem noch besseren Helfer in puncto Automation machen. Mit dem Gemini 2.5 Computer Use-Modell bekommt die KI die Fähigkeit, eigenständig Web- und Mobilanwendungen zu bedienen und das laut Google mit schneller Antwortzeit und hoher Treffsicherheit. Während klassische Automatisierung auf APIs setzt, „bedient“ Gemini 2.5 dank Bild- und Kontextverständnis echte Oberflächen per Klicken, Scrollen, Texteingabe oder Drag & Drop.

Entwickler binden die KI über den neuen Modus in der Gemini-API ein. Dazu gehören ein eigener Screenshot-Loop und eine Action-History. Was genau damit erledigt werden kann? Formulare automatisch ausfüllen, Recherche-Websites durchsuchen, Inhalte kategorisieren oder Aufgaben für Nutzer übernehmen. Quasi das, was GPT mit dem Agent-Modus tut. Die Sicherheit bleibt laut Google dabei ein wichtiger Punkt. Jeder Schritt läuft über externe Prüfmechanismen, sensible Aktionen benötigen außerdem eine explizite Bestätigung.

Erste Beta-User setzen Gemini 2.5 Computer Use schon für UI-Tests, persönliche Agenten, Workflows oder komplexe Automatisierungen ein. Die Vorschau kann ab sofort im Google AI Studio und Vertex AI gefunden werden.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hauptberuflich im SAP-Geschäft tätig und treibt gerne Menschen an. Behauptet von sich den Spagat zwischen Familie, Arbeit und dem Interesse für Gadgets und Co. zu meistern. Hat ein Faible für Technik im Allgemeinen. Auch zu finden bei X (Twitter), Threads, Instagram, XING und Linkedin, per Website oder via Mail

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

7 Kommentare

  1. kann das für mich auf ich bin ein Mensch klicken?

    • Kannst du das nicht? Bist du kein Mensch?

      • Die Frage hat eine „pseudo-witzige“ Antwort eigentlich nicht verdient, denn sie ist durchaus berechtigt! Wenn eine Maschine jetzt Captchas lösen und „I’m not a robot“ Buttons drücken kann, müssen wir uns demnächst auf andere Maßnahmen der Webseitenbetreiber einstellen. Und die jetzigen sind schon nervig genug.

        • Das klicken auf „Ich bin ein Mensch“ ist bei reCAPTCHA gar nicht mehr das interessante. Es wird u.A. der Weg der Maus vom Ursprungsort bis zum Button analysiert. Aber auch das lässt sich mit etwas Programmierarbeit lösen. Teilweise randomisierte Mausbewegungen konnten Bots schon vor 2 Dekaden.

      • Es ist relativ witzlos, wenn man eine Aufgabe von so einem Agenten erledigen lassen will, der Website das ganze verdächtig genug vorkommt für ein Captcha und der Agent daran scheitert. Dann sind so viele Websites darüber nicht benutzbar, dass es eigentlich nur noch zum testen der eigenen Entwicklungen taugt, wo man sich selbst Whitelisten kann…

    • Dafür gibt es doch schon Lösungen wie FlareSolverr.

  2. Kann Gemini für mich dann Turtle WOW spielen? 😉

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.