Text in Sprache: VALL-E kann die Stimme in drei Sekunden nachahmen

Computer geben schon seit gefühlten Ewigkeiten mehr oder weniger natürlich wirkend die menschliche Stimme wieder. Mittlerweile geht der Trend aber dahin, dass mit möglichst wenigen Samples die Stimme und Aussprache eines Menschen perfekt nachgeahmt werden kann. Klingt gruselig, wenn man es missbrauchen möchte. Microsoft-Forscher haben nun ihre Arbeiten zur Verfügung gestellt. Konkret trainiert man ein neuronales Codec-Sprachmodell (genannt VALL-E).

In der Pre-Trainingsphase skalierte man die TTS-Trainingsdaten auf 60.000 Stunden englischer Sprache, was Hunderte Male mehr ist als bei bestehenden Systemen. VALL-E entwickelt kontextabhängige Lernfähigkeiten und kann mit nur einer 3-Sekunden-Aufnahme eines unbekannten Sprechers als akustische Eingabeaufforderung hochwertige personalisierte Sprache synthetisieren.

Experimentelle Ergebnisse zeigen, dass VALL-E das State-of-the-Art Zero-Shot TTS-System in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft. Ebenso ließ sich feststellen, dass VALL-E die Emotionen des Sprechers und die akustische Umgebung des akustischen Prompts in der Synthese beibehalten konnte. Die wissenschaftliche Arbeit findet sich hier – inklusive zahlreicher Hörsamples.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei X, Threads, Facebook, LinkedIn und Instagram.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

25 Kommentare

  1. Microsoft hat die Woche der Stimmennachahmungen erklärt.
    Anzahl der „Mama, ich habe einen Autounfall gebaut und brauche dringend 20000€“-Fälle hat sich verzehnfacht.

    • also, wer mal eben 20000€ einfach so locker hat …und das bei solchen „Tricks“ los wird, hat jetzt nicht gerade mein Mitleid!

      • Das nennt man „Victim Blaming”.

        Victim blaming

        Täter-Opfer-Umkehr oder Schuldumkehr, auch Opferbeschuldigung oder Opferschelte (englisch Victim blaming oder blaming the victim), ist die Beschreibung für ein Vorgehen, das die Schuld des Täters für eine Straftat dem Opfer zuschreiben soll. Dadurch wird das Leid des Opfers verstärkt (sekundäre Viktimisierung). Statt Beistand und Hilfe erfährt das Opfer Anklage und Beschuldigung.

      • Mit einem gutgläubigen Rentnerehepaar, dass ein Leben lang das Geld gespart hat und jetzt gutgläubig dem Sohn oder Enkel in Not damit helfen will, haben sie also kein Mitleid? Sagt vieles über sie als Mensch.

        • Ich glaube es ging eher um die Absurdität des Beispiels. Ich denke auch das wird nur in Familien funktionieren wo es lange keine Kontakt mehr gab, man also sich nicht mehr gut kennt aber natürlich seinen Angehörigen Helfen möchte.

          Vielleicht muss man sich in Zukunft dann einen Code ausdenken, den nur die Leute kennen, die man kennt oder man wird eine SMS Verifizierung ähnlich einer 2-Faktor-Verifizierung bei jeden Telefonat durchführen müssen.
          So etwas könnten die Hersteller und die Provider ja direkt implementieren, so dass der Nutzer da keine Mühen hat. Er bekommt dann nur eine Warnung wenn die Verifizierung fehl schlägt.

          • Ich glaube, es ging eher darum, deutlich zu sagen, dass man selbst ganz bestimmt niemals auf so etwas hereinfallen würde und auch sonst vollkommen fehlerfrei durchs Leben geht, und dass die, denen das passiert, einfach zu doof sind.

          • Oder man ruft denjenigen einfach an und fragt nach.

    • verstrahlter says:

      Klar kann man sich jetzt wie wild (und üblich) auf das beiläufige Beispiel stürzen.
      Dann erspart man sich auch die Überlegung, wie sinnlos das eigentliche Thema ist.
      Nicht wert (Kosten/Nutzen!) damit zu beschäftigen, da keinerlei nützliche Anwendung.
      Ähnlich nutzlos gehyped wie Z-Promis / Cloud / Batteriefabriken / Chat-KI …

  2. Die Hörsamples sind beeindruckend. Ich bin gespannt, wie man es für die Masse umsetzen wird.
    Ich finde es großartig und habe große Bedenken bzgl. der Missbrauchsmöglichkeiten. Vielleicht wird es Standard, sich vor Telefonaten authentifizieren zu müssen.

    • Oder man kann einfach nicht mehr mit „Ja“ per Telefon eine Bestellung tätigen.

    • Wieso sollte eine „Masse“ so etwas brauchen, bzw. dafür bezahlen (Geld oder Privatsphäre)? Eine Promillezahl könnte so etwas aus medizinischen/physischen Gründen nutzen, der Rest würde was Krummes damit drehen.

      • Ja klar: mal den virtuellen „Kollegen“ beim Chef anrufen und mitteilen lassen, was man immer schon mal loswerden wollte. Oder die Nachbarschaft gegeneinander aufwiegeln. Oder die Kollegen. Oder…

        Also einen gewissen Bedarf sehe ich da schon… 😉

        • Oder die Hälfte der deutschen Synchronsprecher und Radio Moderatoren arbeitslos machen.

          • Radio-Moderatoren produzieren nur Füllstoff, den man gerne los wäre. Als Zuhörer zumindest.

          • Radio-Moderatoren ersetzen?
            Was für ein völlig komischer use case – wenn ich Radio ohne Moderatoren will, höre ich spotify.

            Ich warte schon seit Jahren auf die App die mich den Stream eines Radios anhören lässt, die aber dann wenn der „Werbung“ – Jingle des jeweiligen Senders eingespielt wird, auf spotify umschaltet bis kein Sparch-Inhalt mehr zu hören ist.

            Ich mag spotify, aber auf Dauer ist das langweilig, ich würde schon gerne ab und zu Radio hören. ZB beim Auto fahren.
            Aber es gibt nichts nervigeres als Radiowerbung, also höre ich meistens genau so lange bis das erste Mal Werbung kommt und schalte dann für den Rest der Fahrt wieder weg.

            Das Erkennen von immer gleichen Jingles sollte doch nicht so schwer sein, frage mich warum sowas noch niemand geschrieben hat.

            • Hallo SJ, „Aber es gibt nichts nervigeres als Radiowerbung, also höre ich meistens genau so lange bis das erste Mal Werbung kommt “ hör doch einfach öffentlich-rechtliche, da haben nicht alle Programmketten Werbung. Z. B. nicht die klassikwellen – im Gegensatz zum kommerziellen Klassik-Radio – oder hier beim NDR z. B. die ersten regionalisierten programme und die DAB+-exclusiven Sender wie NDR Schlager. Nur NDR II (bei N-Joy weiß ich das nicht weil ich den wegen der musikfarbe nicht höre ) hat Werbung. Das dürfte bei vielen anderen ÖR-Sendern auch so sein, einfach probieren. Ob du die Standard-Playlist nun von Radio Hamburg oder dem NDR bekommst ist musikalisch Wumpe , aber bei richtiger Senderwahl bleibt dir – von eigenwerbung des Senders abgesehen – jede Drittwerbung erspart.

      • Hallo Jan “ Wieso sollte eine „Masse“ so etwas brauchen, bzw. dafür bezahlen (Geld oder Privatsphäre)? Eine Promillezahl könnte so etwas aus medizinischen/physischen Gründen nutzen, der Rest würde was Krummes damit drehen.“ – und Deine Schlußfolgerung? Sollen jetzt die angeblich Promille – zu denen z. B. Leute wie ich gehören die eine TTS als Teil eines Screenreader = Bildschirmausleseprogramm nutzen auf diese Hilfe und bessere Qualität von Vorleseprogrammen verzichten, nur weil „Puhvögel“ was Böses damit anrichten könnten? Klar es gab Zeiten da waren wir blinden Menschen mit TTS auf Basis eines Votrax-Chips für Telespiele zufrieden oder mit Stimmen wie der Eloquence TTS oder schlimmer eSpeak. Aber meinst Du mit Deinem Satz man sollte so was wie möglichst natürliche Sprachausgaben nicht erfinden, weil das Leute für Schindluder nutzen könnten? Also Zensur von wissenschaft und Forschung? Sicher gibt es den einen oder anderen Aluhutträger , der meint man hätte nie sowas sie ein Cochlea-Implantat entwickeln sollen oder die Tiefe Hirnstimulation – das sei der anfang der entwicklung von „Cyborgs“ Im Sinne der menschen die durch (Medizin-)technik Hilfe erhalten die sie befähigt trotz einschränkungen ein möglichst unabhängiges und selbständiges Leben zu führen darf es nie einschränkungen von Forschung und Wissenserwerb geben. erst bei der anwendung , also Therapie oder auch anwendung in „normalen“ Alltagsleben darf man dann fragen was damit unschönes angestellt werden könnte. Dann ist es Sache von Gesetzgebern hier Regelungen zur Beschränkung von Anwendungen zu erlassen. Die Freiheit von Forschung und Lehre ist unantastbar und muß es bleiben.

      • Nur ein paar Ideen, die nicht nur den medizinischen Bereich betreffen könnten
        – jegliche Bücher/Texte sich oder anderen vorlesen lassen mit der Wunschstimme (auch von Verstorbenen)
        – Sprachassistenzsysteme mit der Wunschstimme betreiben
        – z. B. Whatsapp auf Wunsch automatisch eingehende Nachrichten mit der Stimme des Absenders vorlesen lassen

  3. In 3 Jahren, haben wir einen neuen Film in den Kinos. Es ist ein Jugenddrama, angesiedelt im mittleren Westen in der Nähe dere Großen Seen. Der Film findet Ende der 60er Jahre. Vier Jugendliche aus jeweils unterschiedlichen Schichten Treffen an einem Sommerurlaub auf einander und Konflikte bleiben nicht aus. In den Hauptrollen: James Dean, Marlon Brando, Elizabeth Taylor and Marilyn Monroe. Weitere Darsteller als Eltern: Clint Eastwood, Kiefer Sutherland, Meryl Streep und Katharine Hepburn. In Nebenrollen: William H Macey, Samuel L Jackson, Morgen Freeman, Sidney Poitiers, River und Joaquin Phoenix, Audrey Hepburn, Grace Kelly, Susan Sarandon und Glenn Close. Einen Haken hat die ganze Sache. Keiner von denen macht selbst mit. Alles Deep Fake Gesichter und Stimmen.
    Es ist ziemlich morbide und die Studios würden es bis zum Sankt Nimmerleinstag ausquetschen, ich fände es bei einigen Schauspielern, wenn man es geschmackvoll und mit Respekt (machen wir uns nichts vor, wird nicht passieren, keiner von denen in Hollywood hat eine Seele) mal einen Film im Sinne von „was wäre wenn….“ macht.

    • Hallo Erna , oder die „Cancel-Culture“-Ideologie nutzt diese Möglichkeiten um alte Filme in ihrem politischen Sinne nachträglich mit Original-SchauspielerInnen und deren Stimmen zu korrigieren: Frodo Gendert, PiPi hat keinen N…häuptling mehr in der Verwandschaft, und Bonny und Clyde liefern sich mit der Polizei in e-Autos Straßenrennen. Politisch korrekte schöne? neue Welt …

      • Das befürchte ich leider auch. Das würde mich bis zum äußersten nerven. Stell dir vor Amistad, die Farbe Lila und ähnliche Filme.

  4. Darf man es kommerziell nutzen? Z.B. für Videospiele?

  5. Endlich jedes beliebige E-Book von meinem Lieblingssprecher vorlesen lassen.
    Aber ich möchte garnicht daran denken wie viel Unfug man damit treiben kann. Wie kann ich zukünftig am Telefon noch sicher sein mit der Person zu sprechen die ich denke, dass sie ist? Brauchen wir bald eine Verifizierung von Anrufern?

    • Du siehst doch die Nummer vom Anrufer. Spoofing sollte sich technisch verhindern lassen.

      • Szenario: Ich gehe in das Büro meines Kollegen, rufe den Chef an beleidige ihn mit der Stimme meines Kollegen. Der Chef hat an der Stimme eindeutig erkannt dass es mein Kollege war, die Nummer stimmt auch. Was meinst du was passiert. Ohne AI wäre das nicht möglich.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.