Mensch oder Maschine? Mit Googles Tacotron 2 hört man kaum noch einen Unterschied

Der ein oder andere Nutzer von aktuellen Sprachassistenten mag sich vielleicht etwas über die Überschrift wundern, denn aktuell sind die künstlichen Stimmen auch ohne Probleme als solche zu erkennen. Obwohl sich da in den letzten Jahren natürlich schon viel bewegt hat, so klingt der Google Assistant heute bereits viel natürlicher als ältere Sprachausgaben von Google. In Zukunft dürfte es aber immer schwieriger werden, eine künstliche Stimme von einer natürlichen Stimme zu unterscheiden.

Tacotron 2 ist eine neurale Netzwerkarchitektur, die Stimmen aus reinem Text erzeugen kann. Während das System entsprechend trainiert wurde, sind die gesprochenen Beispielsätze dem System vorher unbekannt gewesen. Das klingt alles schon sehr natürlich, wobei ich durchaus finde, dass man gerade bei bestimmten Betonungen eben schon noch hört, ob hier Mensch oder Maschine am Werk ist.

Aber es wird dem Zuhörer nicht einfach gemacht, vor allem nicht ohne direkten Vergleich. Auf dieser Seite gibt es einige Beispiele (die Zungenbrecher sind beeindruckend). Und ganz unten findet Ihr auch Vergleichsaufnahmen. Einmal Mensch, einmal Maschine. Falls Ihr raten wollt, hört Euch die Aufnahmen an, bevor Ihr weiter lest.

Im ersten Beispielsatz ist die zweite Aufnahme die der Maschine, beim zweiten und dritten Beispiel jeweils die erste Aufnahme und beim vierten Vergleich ist wieder die zweite Aufnahme die der Maschine. Das hört sich schon sehr natürlich an, oder? Details zu den Ergebnissen findet Ihr bei Interesse in diesem Dokument.

Diese Natürlichkeit ist es auch, die einmal dafür sorgen wird, dass man sich tatsächlich natürlich mit Gerätschaften unterhält. Ich weiß nicht, wie es Euch da geht, aber ich versuche trotzdem immer irgendwie „eine Maschine“ anzusprechen, wenn ich Alexa oder den Google Assistant bemühe. Eigentlich falsches Vorgehen, weil ich mich in diesem Moment anpasse, es aber eigentlich andersherum sein sollte.

Wie wichtig ist für Euch denn die Natürlichkeit einer Stimme bei Nutzung von Geräten? Würdet Ihr öfter oder anders fragen, wenn sich das Gesprochene mehr nach Mensch anhört?

(via Quartz)

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

*Mitglied der Redaktion 2013 bis 2019*

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

9 Kommentare

  1. Sehr faszinierend. Kann natürlich noch etwas dauern, bis das in andere Sprachen portiert wird. Die Aussprache scheint ja rein auf Syntax/Grammatik und daraus abgeleiteten Logiken zu entstehen.

    Viele Alexa-Skills im Nachrichten-Bereich lesen oftmals nur RSS-Feed-Text vor. Das nervt mich noch etwas, wenn Alexa da unnatürlich in der Aussprache holpert. Ich bevorzuge bisher die Skills mit echtem Sprecher bzw. gestreamter Audiospur.

    Mit Tacotron 2 ist das natürlich eine andere Sache. Ich bin auf die Entwicklung gespannt.

  2. CommanderROR says:

    Nunja…mich stört weniger die Stimmqualität bei den Antworten als die unflexibilität bei den Fragen. Man muss schon bei Kommandos und Fragen sehr darauf achten wie man etwas formuliert…

  3. Alle die hier denken: oh nein, wie gruselig, sollten sich besser direkt weghängen. Das ist alles noch recht lächerlicher Kindergarten. Wir beginnen grade erst…

  4. Hallo , ich arbeite schon lange mit Sprachausgaben am Rechner , von wegen Erblindung. Angefangen mit DOS-Rechnern und Votrax-Chips u. ä. als externe hardware-Syntehsizer an Drucker-oder Comports bis zu modernen Screenreadern unter iOS, MacOS und Windows. Dabei war für mich als erstes wichtig daß Informationen kontextsensitiv präsentiert wurden , also mehr die Rolle des Steuerprogramms als die eigentliche Qualität der Sprachausgabe . Manche von uns ziehen sogar einfacher klingende Stimmen wie die ETI Eloquence vor , sie klingt maschineller , reagiert aber schneller bei Beedieninteraktionen und entlarvt schonungsloser Rechtschreibfehler. Ich selber habe inzwischen mehrere Stimmen in meine Screenreader eingebunden und wechsel je nach Anforderungsprofil – die einen zum Arbeiten , die anderen z. B. zum Hören von e-Books.
    Andi

  5. @CommanderROR, geht mir genau so. Alexa versteht teilweise richtig, kann dann aber nichts damit anfangen. Beispiel: „Alexa, spiele Wiener Straße von Spotify“. Antwort: „Ich kann noch keine Kindle Ebooks auf diesem Gerät lesen“. Wenn man dann das Hörbuch Wiener Straße in Spotify startet und auf dem Echo wiedergeben lässt und anschließend fragt „Alexa, was höre ich?“, lautet die Antwort „Dies ist Wiener Straße, Teil x von Sven Regener“. Ich habe keine Ahnung, wie ich die Anweisung formulieren soll, damit Alexa damit was anfangen kann.
    Richtiggehend dummoptimiert scheint die Google-Spracherkennung seit dem letzten Update der Shield TV. Vorher wurden gesprochene Worte recht gut erkannt, dann danach gesucht. Wenn ich jetzt nach etwas z.B. bei youtube suche, erkennt das System die Wörter eigentlich richtig (schreibt sie auf den Bildschirm), versucht dann die Bedeutung zu erraten und macht einen komplett anderen Satz daraus. Das nervt ungemein und stellt eine massive Verschlechterung zu vorher dar.
    Da scheint mir noch viel mehr Arbeit nötig zu sein, als bei der Sprachausgabe.

  6. Das ein Konzern das gesprochene Wort von Millionen Menschen (potentiell) 1:1 mithört, speichert und analysiert, finde ich schon beängstigend. Und dass das Argument Bequemlichkeit heutzutage ausreicht, dass das die Menschen ohne Zwang mitmachen. Und wenn sich jetzt noch die NSA auf diese Daten draufschaltet im Namen der Terrorabwehr. Guten Tag, Überwachungsstaat.
    Und, ja, ich habe auch ein Smartphone, aber die Home Assistenten sehe ich schon mit Sorge.

  7. Sehe das auch so wie @CommanderROR.
    Der Klang der Sprache macht die Antworten zwar angenehmer zu hören, aber die Eingabe der Befehle ist für mich wichtiger. Oft sind die Systeme nicht viel flexibler als ein Compiler der eine Zeile Code kompilieren soll. Wenn ein Wort an der falschen Stelle sitzt, kann der Befehl nicht bearbeitet werden. Eine „natürliche“ Kommunikation ist so nicht möglich und man muss sich eine Reihe von Befehlen merken, die die Maschine versteht.

  8. Ich möchte nicht, dass sich Computer so in den Alltag reinwanzen, dass der Unterschied verschwimmt. Ein Gerät bleibt ein Gerät. Das darf und soll man ruhig merken.

    Schon jetzt merkt man zB dass die sozialen Kompetenzen mancher ITler ausbaufähig sind. Klar, wer 8 Stunden aufwärts am Tag nur mit Input/Output beschäftigt ist, der ist mit den Tagen, Monaten und Jahren eher abgestumpft, als jemand der die selbe Zeit mit Maschinen zu tun hat.

    Kein Computer ersetzt echte menschliche Zuwendung, aber diese wird immer mehr versucht durch eine Simulation zu ersetzen. Das kann unserer Lebensqualität letztlich nur abträglich sein. Und schon jetzt belegen diverse Erkenntnisse der Wissenschaft, dass Menschen den Umgang mit Mitmenschen ändern, wenn sie viel mit Computern interagieren (eine Veränderung zum Negativen).

    Ich bin generell technikaffin. Aber nur da, wo es unser Leben bereichert, nicht echte Menschen und deren Interaktion überflüssig macht.

  9. @Hackfleisch
    „schon jetzt belegen diverse Erkenntnisse der Wissenschaft, dass Menschen den Umgang mit Mitmenschen ändern, wenn sie viel mit Computern interagieren (eine Veränderung zum Negativen).“
    Hast Du da irgendeine Quellenangabe parat? Würde mich interessieren.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.