Mensch oder Maschine? Mit Googles Tacotron 2 hört man kaum noch einen Unterschied

28. Dezember 2017 Kategorie: Google, geschrieben von:

Der ein oder andere Nutzer von aktuellen Sprachassistenten mag sich vielleicht etwas über die Überschrift wundern, denn aktuell sind die künstlichen Stimmen auch ohne Probleme als solche zu erkennen. Obwohl sich da in den letzten Jahren natürlich schon viel bewegt hat, so klingt der Google Assistant heute bereits viel natürlicher als ältere Sprachausgaben von Google. In Zukunft dürfte es aber immer schwieriger werden, eine künstliche Stimme von einer natürlichen Stimme zu unterscheiden.

Tacotron 2 ist eine neurale Netzwerkarchitektur, die Stimmen aus reinem Text erzeugen kann. Während das System entsprechend trainiert wurde, sind die gesprochenen Beispielsätze dem System vorher unbekannt gewesen. Das klingt alles schon sehr natürlich, wobei ich durchaus finde, dass man gerade bei bestimmten Betonungen eben schon noch hört, ob hier Mensch oder Maschine am Werk ist.

Aber es wird dem Zuhörer nicht einfach gemacht, vor allem nicht ohne direkten Vergleich. Auf dieser Seite gibt es einige Beispiele (die Zungenbrecher sind beeindruckend). Und ganz unten findet Ihr auch Vergleichsaufnahmen. Einmal Mensch, einmal Maschine. Falls Ihr raten wollt, hört Euch die Aufnahmen an, bevor Ihr weiter lest.

Im ersten Beispielsatz ist die zweite Aufnahme die der Maschine, beim zweiten und dritten Beispiel jeweils die erste Aufnahme und beim vierten Vergleich ist wieder die zweite Aufnahme die der Maschine. Das hört sich schon sehr natürlich an, oder? Details zu den Ergebnissen findet Ihr bei Interesse in diesem Dokument.

Diese Natürlichkeit ist es auch, die einmal dafür sorgen wird, dass man sich tatsächlich natürlich mit Gerätschaften unterhält. Ich weiß nicht, wie es Euch da geht, aber ich versuche trotzdem immer irgendwie „eine Maschine“ anzusprechen, wenn ich Alexa oder den Google Assistant bemühe. Eigentlich falsches Vorgehen, weil ich mich in diesem Moment anpasse, es aber eigentlich andersherum sein sollte.

Wie wichtig ist für Euch denn die Natürlichkeit einer Stimme bei Nutzung von Geräten? Würdet Ihr öfter oder anders fragen, wenn sich das Gesprochene mehr nach Mensch anhört?

(via Quartz)

Über den Autor:

Technik-Freund und App-Fan. In den späten 70ern des letzten Jahrtausends geboren und somit viele technische Fortschritte live miterlebt. Vater der weltbesten Tochter (wie wohl jeder Vater) und Immer-Noch-Nicht-Ehemann der besten Frau der Welt. Außerdem zu finden bei Twitter (privater Account mit nicht immer sinnbehafteten Inhalten) und Instagram. PayPal-Kaffeespende an den Autor.

Sascha hat bereits 9563 Artikel geschrieben.