Amazon Alexa: Unternehmen können sich für ihre Skills eigene Stimmen zurechtbasteln

Amazon hat in seinem AWS-Blog ein wenig über eine neue Funktion in Amazon Polly gesprochen: Brand Voice. Dieses Feature steht Erstellern von Alexa Skills zur Verfügung. Die Bezeichnung verrät euch, worum es geht, nämlich darum, dass Unternehmen für ihre Alexa Skills angepasste Stimmen verwenden können. Das soll die Nutzung der Skills deutlich vielfältiger machen.

Als Beispiele nennt Amazon dann auch im Blog direkt die beiden Unternehmen Kentucky Fried Chicken und die National Australia Bank (NAB). Beide haben über die neue Funktion Brand Voice völlig unterschiedliche Stimmen über Neural Text-to-Speech (NTTS) erstellt. Wie man es etwa vom Fast-Food-Restaurant und dessen Markenimage erwarten sollte, hört man da einen Sprecher mit starkem US-Südstaaten-Akzent, der eben an den Gründer von KFC, Colonel Sanders, erinnern soll.

Die NAB wiederum hat sich für einen deutlich anders klingenden Sprecher entschieden, der auch mehr zum seriösen, geschäftlichen Image eines Finanzinstituts passt. Beide Unternehmen haben aber eben Amazon Polly bzw. Brand Voice und dessen Deep-Learning-Techniken eingespannt. Die Ergebnisse könnt ihr euch ja mal in der Quelle (siehe unten) zu Gemüte führen – durchaus beeindruckend.

Falls euch Amazon Polly nichts sagt: Für Polly nutzt man die besagten NTTS-Techniken und kombiniert sie mit KI und maschinellem Lernen, um künstliche Stimmen in noch besserer Qualität zu erstellen. Die Ergebnisse sollen deutlich natürlicher klingen als noch vor einigen Jahren. Dabei ist es eben auch möglich, bestimmte Sprachstile oder auch Akzente einzubinden – siehe Colonel Sanders als gelungenes Beispiel. Über Deep Learning werden spezielle Intonations-Muster generiert, die sich auch an realen Menschen orientieren können.

Auf diese Weise konnte Amazon etwa auch eine Stimme für den Schauspieler Samuel L. Jackson erstellen, die in den USA für Alexa zum Kauf zur Verfügung steht. Der Schauspieler musste nur ein paar Zeilen aufnehmen und auf der Basis jener Aufnahmen konnte Amazon dann für Alexa über NTTS alles Weitere selbst generieren.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Ein Kommentar

  1. Neue Funktion? Der Skill von 1Live hat schon seit einem Jahr (+/-) eine eigene Stimme? Ist das hier ein anderes Verfahren, oder was ist hier neu?

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.