Gemini 2.5: Google präsentiert neue Audio-Funktionen

Google hat noch einmal die neuesten Entwicklungen seiner KI-Plattform Gemini vorgestellt. Die Version 2.5 bringt dabei laut Google Fortschritte im Bereich der Audio-Verarbeitung und -Generierung mit sich. Das System wurde von Grund auf multimodal konzipiert und versteht nicht nur Text und Bilder, sondern auch Audio, Video und Code.
Mit an Bord ist die Echtzeit-Audio-Konversation, bei der Gemini 2.5 nicht nur auf den Inhalt des Gesagten reagiert, sondern auch Tonfall, Akzent und sogar nicht-sprachliche Äußerungen wie Lachen erkennt. Die Latenzzeiten sind dabei so niedrig, dass sich tatsächlich flüssige Gespräche führen lassen. Das System unterstützt mehr als 24 Sprachen und kann diese sogar innerhalb eines Gesprächs mischen.
Die Text-to-Speech-Funktionen wurden verbessert, verspricht Google. Nutzer können jetzt präzise steuern, wie der generierte Audio-Content klingen soll – von der emotionalen Ausdrucksweise bis hin zu spezifischen Akzenten. Das System kann auch Zwei-Personen-Dialoge erzeugen, was sich beispielsweise für die Erstellung von Podcast-ähnlichen Inhalten eignet.
Google hat laut eigener Aussagen bei der Entwicklung großen Wert auf Sicherheit gelegt. Alle KI-generierten Audioinhalte werden mit der hauseigenen Wasserzeichen-Technologie SynthID markiert, wodurch sie als künstlich erzeugt erkennbar bleiben. Entwickler können die neuen Audio-Funktionen über die Gemini API in Google AI Studio oder Vertex AI nutzen.
Erste Anwendungen der Technologie sind bereits in Produkten wie NotebookLM’s Audio Overviews und Project Astra zu finden. Das System kann dabei nicht nur auf Spracheingaben reagieren, sondern auch Hintergrundgeräusche erkennen und filtern. Zudem versteht es, wann es besser schweigen sollte – eine Funktion, die besonders in Gruppensituationen relevant sein kann.
Die neuen Funktionen stehen in zwei Varianten zur Verfügung: Gemini 2.5 Pro Preview für hochqualitative, komplexe Aufgaben und Gemini 2.5 Flash Preview für kostengünstigere Standardanwendungen. Entwickler können die Audio-Funktionen ab sofort im Stream-Tab von Google AI Studio testen.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Kann ich mittlerweile im Handy auf Gemini umstellen? Hab da noch das normale Google (Ok Google) aktiv, weil Gemini damals noch nicht mal einen Timer einstellen konnte.
wüsste jetzt persönlich nicht was dagegen spricht, bei mir funktioniert soweit alles, von Timer, Wecker, Nachricht schreiben usw.
Ja.
Wecker geht bei mir weiterhin nicht. Für mich ein absolutes KO Kriterium, dass so Grundfunktionen nicht klappen.
„Da ich ein Sprachmodell bin, kann ich leider keinen Wecker stellen.“
„Hey Google, stell einen Wecker in einer Stunde“
„Der Wecker wurde erfolgreich für 10:28 gestellt.“
Funktioniert hier mit Gemini ohne Probleme
Wecker, etc. funktioniert auf Pixel 6 problemlos.
Yo Bro, funktioniert ohne Probleme.
..und eine Auto Complete Funktion kommt für Prompts bei Gemini. Super für Faule