ChatGPT verbessert Sprachausgabe für zahlende Nutzer

OpenAI hat Verbesserungen für die Sprachausgabe-Funktion von ChatGPT angekündigt. Die Advanced Voice genannte Funktion, die zahlenden Nutzern zur Verfügung steht, wurde in mehreren Bereichen optimiert. Die KI spricht jetzt natürlicher, mit feineren Betonungen und realistischeren Sprechpausen. Auch die Ausdrucksmöglichkeiten wurden erweitert – die KI kann nun überzeugender Empathie oder Sarkasmus vermitteln, so das Unternehmen.
Eine Neuerung ist die verbesserte Übersetzungsfunktion. Die KI übersetzt nun Gespräche simultan, bis der Nutzer die Übersetzung stoppt oder die Sprache wechselt. Das macht die Funktion sicher ganz nett für Reisende. Die KI übersetzt dabei in beide Richtungen, zum Beispiel vom Englischen ins Portugiesische und zurück.
Die Verbesserungen bauen auf einem früheren Update auf, das bereits weniger Unterbrechungen und verbesserte Akzente brachte. Allerdings gibt es noch einige bekannte Einschränkungen: In Tests wurden gelegentlich Schwankungen in der Audioqualität beobachtet, insbesondere bei Tonhöhe und Klangfarbe. Diese Probleme treten bei bestimmten Stimmenoptionen häufiger auf. Zudem kommt es in seltenen Fällen zu KI-Halluzinationen, die an Werbung, Kauderwelsch oder Hintergrundmusik erinnern. OpenAI arbeitet bereits an Lösungen für diese Probleme.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Bei der Deutschen Stimme eher ein rückschritt. Wörter werden vernuschelt. Die künstlichen Pausen und Füllwörter oft unnötig lange und der Satzbau deutlich umgangssprachlicher…
Wäre gut wenn es eine Einstellmöglichkeit gäbe.
Und Caschy, überarbeite mal deinen Consentbanner und füge einen „alle ablehnen“ Button hinzu, das ist neuerdings Pflicht.
Ja, ist mir gestern auch aufgefallen. Es kommen jetzt recht oft „ähs“ und „ähms“ und es wird mehr genuschelt.
In den Einstellungen unter „Personalisierung“ kann man ja angeben, dass Antworten präziser und weniger umgangssprachlich sein sollten und keine „Ähs“ und „Äms“ enthalten dürfen.
Hallo Juwema02,
die von Dir beobachtete „verschönschlimmbesserung“ von synthetischen Sprachausgaben ist nicht nur auf ChatGPT beschränkt.
Ich nutze seit es sie gibt Sprachausgaben.
Von mir und vielen anderen Blinden wird immer noch die ETI-Eloquence bevorzugt.
sie klingt nicht schön, aber weitgehend exakt, Schreibfehler werden meist schon durch das Hörbild erkennbar, ohne daß man sich etwas vorbuchstabieren lassen müßte.
Andere Sprachausgaben z. B. von nuance klingen besser, „menschenähnlicher“ aber um den Preis teilweiser verschleifungen bei Endsilben, (wie das natürliche Sprecher ja auch oft tun) oder anderer Ungenauigkeiten.
Scheint ein echter zielkonflikt zu sein. Manchmal wird auch zuviel „Intelligenz“ in die Sprachausgaben „eingeplanzt“, zwei Beispiele:
– römische Zahlen werden automatisch übersetzt – das kann zu Mißverständnissen bei anderen Abkürzungen führen
– da war wohl mal ein Programmierer fan der gruppe „U2“ gesprochen Ju tu. Nun werden fleißig alle U-Bahn-Linien mit der Nummer 2 auch als Ju tu ausgesprochen.
Wäre schön, wenn ChatGPT mal ein Browser Plugin für Livestream Übersetzungen von JAP nach DE oder ENG bringen würde.
Da suche ich noch immer eine gute Variante. Abseits von google Live Caption und NewTranx.
Falls jemand etwas kennt, gerne nennen. Thx.
verschlimmbessert! Es kommt doch darauf an ob einem die Stimme sympathisch ist. Das ist so ein hauptkriterium. Wenn man sich nun an eine Stimme gewöhnt hat und diese wird geändert und ist einem dann unsympathisch, ist man geneigt nach einer geeigneten Stimme zu suchen und den Anbieter zu wechseln.
ich finde die neue Stimmlage und Art schrecklich. hört sich so an wie ein Möchtegern dem alles egal ist
Du triffst es für mich voll auf den Punkt. Meine erste Reaktion: Arroganter Schnösel!