Gemini 2.5: Google präsentiert neue Audio-Funktionen

Google hat noch einmal die neuesten Entwicklungen seiner KI-Plattform Gemini vorgestellt. Die Version 2.5 bringt dabei laut Google Fortschritte im Bereich der Audio-Verarbeitung und -Generierung mit sich. Das System wurde von Grund auf multimodal konzipiert und versteht nicht nur Text und Bilder, sondern auch Audio, Video und Code.

Mit an Bord ist die Echtzeit-Audio-Konversation, bei der Gemini 2.5 nicht nur auf den Inhalt des Gesagten reagiert, sondern auch Tonfall, Akzent und sogar nicht-sprachliche Äußerungen wie Lachen erkennt. Die Latenzzeiten sind dabei so niedrig, dass sich tatsächlich flüssige Gespräche führen lassen. Das System unterstützt mehr als 24 Sprachen und kann diese sogar innerhalb eines Gesprächs mischen.

Die Text-to-Speech-Funktionen wurden verbessert, verspricht Google. Nutzer können jetzt präzise steuern, wie der generierte Audio-Content klingen soll – von der emotionalen Ausdrucksweise bis hin zu spezifischen Akzenten. Das System kann auch Zwei-Personen-Dialoge erzeugen, was sich beispielsweise für die Erstellung von Podcast-ähnlichen Inhalten eignet.

Google hat laut eigener Aussagen bei der Entwicklung großen Wert auf Sicherheit gelegt. Alle KI-generierten Audioinhalte werden mit der hauseigenen Wasserzeichen-Technologie SynthID markiert, wodurch sie als künstlich erzeugt erkennbar bleiben. Entwickler können die neuen Audio-Funktionen über die Gemini API in Google AI Studio oder Vertex AI nutzen.

Erste Anwendungen der Technologie sind bereits in Produkten wie NotebookLM’s Audio Overviews und Project Astra zu finden. Das System kann dabei nicht nur auf Spracheingaben reagieren, sondern auch Hintergrundgeräusche erkennen und filtern. Zudem versteht es, wann es besser schweigen sollte – eine Funktion, die besonders in Gruppensituationen relevant sein kann.

Die neuen Funktionen stehen in zwei Varianten zur Verfügung: Gemini 2.5 Pro Preview für hochqualitative, komplexe Aufgaben und Gemini 2.5 Flash Preview für kostengünstigere Standardanwendungen. Entwickler können die Audio-Funktionen ab sofort im Stream-Tab von Google AI Studio testen.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei X, Threads, Facebook, LinkedIn und Instagram.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

8 Kommentare

  1. Kann ich mittlerweile im Handy auf Gemini umstellen? Hab da noch das normale Google (Ok Google) aktiv, weil Gemini damals noch nicht mal einen Timer einstellen konnte.

    • Dominique says:

      wüsste jetzt persönlich nicht was dagegen spricht, bei mir funktioniert soweit alles, von Timer, Wecker, Nachricht schreiben usw.

    • Ja.

    • Wecker geht bei mir weiterhin nicht. Für mich ein absolutes KO Kriterium, dass so Grundfunktionen nicht klappen.

      „Da ich ein Sprachmodell bin, kann ich leider keinen Wecker stellen.“

      • „Hey Google, stell einen Wecker in einer Stunde“

        „Der Wecker wurde erfolgreich für 10:28 gestellt.“

        Funktioniert hier mit Gemini ohne Probleme

      • Dierck Ziegler says:

        Wecker, etc. funktioniert auf Pixel 6 problemlos.

    • Dierck Ziegler says:

      Yo Bro, funktioniert ohne Probleme.

  2. ..und eine Auto Complete Funktion kommt für Prompts bei Gemini. Super für Faule

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.