
Tacotron 2 ist eine neurale Netzwerkarchitektur, die Stimmen aus reinem Text erzeugen kann. Während das System entsprechend trainiert wurde, sind die gesprochenen Beispielsätze dem System vorher unbekannt gewesen. Das klingt alles schon sehr natürlich, wobei ich durchaus finde, dass man gerade bei bestimmten Betonungen eben schon noch hört, ob hier Mensch oder Maschine am Werk ist.
Aber es wird dem Zuhörer nicht einfach gemacht, vor allem nicht ohne direkten Vergleich. Auf dieser Seite gibt es einige Beispiele (die Zungenbrecher sind beeindruckend). Und ganz unten findet Ihr auch Vergleichsaufnahmen. Einmal Mensch, einmal Maschine. Falls Ihr raten wollt, hört Euch die Aufnahmen an, bevor Ihr weiter lest.
Im ersten Beispielsatz ist die zweite Aufnahme die der Maschine, beim zweiten und dritten Beispiel jeweils die erste Aufnahme und beim vierten Vergleich ist wieder die zweite Aufnahme die der Maschine. Das hört sich schon sehr natürlich an, oder? Details zu den Ergebnissen findet Ihr bei Interesse in diesem Dokument.
Diese Natürlichkeit ist es auch, die einmal dafür sorgen wird, dass man sich tatsächlich natürlich mit Gerätschaften unterhält. Ich weiß nicht, wie es Euch da geht, aber ich versuche trotzdem immer irgendwie „eine Maschine“ anzusprechen, wenn ich Alexa oder den Google Assistant bemühe. Eigentlich falsches Vorgehen, weil ich mich in diesem Moment anpasse, es aber eigentlich andersherum sein sollte.
Wie wichtig ist für Euch denn die Natürlichkeit einer Stimme bei Nutzung von Geräten? Würdet Ihr öfter oder anders fragen, wenn sich das Gesprochene mehr nach Mensch anhört?