Gemini 2.5 Computer Use: Googles KI steuert jetzt Browser und Apps

Google möchte Gemini zu einem noch besseren Helfer in puncto Automation machen. Mit dem Gemini 2.5 Computer Use-Modell bekommt die KI die Fähigkeit, eigenständig Web- und Mobilanwendungen zu bedienen und das laut Google mit schneller Antwortzeit und hoher Treffsicherheit. Während klassische Automatisierung auf APIs setzt, „bedient“ Gemini 2.5 dank Bild- und Kontextverständnis echte Oberflächen per Klicken, Scrollen, Texteingabe oder Drag & Drop.
Entwickler binden die KI über den neuen Modus in der Gemini-API ein. Dazu gehören ein eigener Screenshot-Loop und eine Action-History. Was genau damit erledigt werden kann? Formulare automatisch ausfüllen, Recherche-Websites durchsuchen, Inhalte kategorisieren oder Aufgaben für Nutzer übernehmen. Quasi das, was GPT mit dem Agent-Modus tut. Die Sicherheit bleibt laut Google dabei ein wichtiger Punkt. Jeder Schritt läuft über externe Prüfmechanismen, sensible Aktionen benötigen außerdem eine explizite Bestätigung.
Erste Beta-User setzen Gemini 2.5 Computer Use schon für UI-Tests, persönliche Agenten, Workflows oder komplexe Automatisierungen ein. Die Vorschau kann ab sofort im Google AI Studio und Vertex AI gefunden werden.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
kann das für mich auf ich bin ein Mensch klicken?
Kannst du das nicht? Bist du kein Mensch?
Die Frage hat eine „pseudo-witzige“ Antwort eigentlich nicht verdient, denn sie ist durchaus berechtigt! Wenn eine Maschine jetzt Captchas lösen und „I’m not a robot“ Buttons drücken kann, müssen wir uns demnächst auf andere Maßnahmen der Webseitenbetreiber einstellen. Und die jetzigen sind schon nervig genug.
Das klicken auf „Ich bin ein Mensch“ ist bei reCAPTCHA gar nicht mehr das interessante. Es wird u.A. der Weg der Maus vom Ursprungsort bis zum Button analysiert. Aber auch das lässt sich mit etwas Programmierarbeit lösen. Teilweise randomisierte Mausbewegungen konnten Bots schon vor 2 Dekaden.
Es ist relativ witzlos, wenn man eine Aufgabe von so einem Agenten erledigen lassen will, der Website das ganze verdächtig genug vorkommt für ein Captcha und der Agent daran scheitert. Dann sind so viele Websites darüber nicht benutzbar, dass es eigentlich nur noch zum testen der eigenen Entwicklungen taugt, wo man sich selbst Whitelisten kann…
Dafür gibt es doch schon Lösungen wie FlareSolverr.
Kann Gemini für mich dann Turtle WOW spielen? 😉