Amazon Alexa: Unternehmen können sich für ihre Skills eigene Stimmen zurechtbasteln
Amazon hat in seinem AWS-Blog ein wenig über eine neue Funktion in Amazon Polly gesprochen: Brand Voice. Dieses Feature steht Erstellern von Alexa Skills zur Verfügung. Die Bezeichnung verrät euch, worum es geht, nämlich darum, dass Unternehmen für ihre Alexa Skills angepasste Stimmen verwenden können. Das soll die Nutzung der Skills deutlich vielfältiger machen.
Als Beispiele nennt Amazon dann auch im Blog direkt die beiden Unternehmen Kentucky Fried Chicken und die National Australia Bank (NAB). Beide haben über die neue Funktion Brand Voice völlig unterschiedliche Stimmen über Neural Text-to-Speech (NTTS) erstellt. Wie man es etwa vom Fast-Food-Restaurant und dessen Markenimage erwarten sollte, hört man da einen Sprecher mit starkem US-Südstaaten-Akzent, der eben an den Gründer von KFC, Colonel Sanders, erinnern soll.
Die NAB wiederum hat sich für einen deutlich anders klingenden Sprecher entschieden, der auch mehr zum seriösen, geschäftlichen Image eines Finanzinstituts passt. Beide Unternehmen haben aber eben Amazon Polly bzw. Brand Voice und dessen Deep-Learning-Techniken eingespannt. Die Ergebnisse könnt ihr euch ja mal in der Quelle (siehe unten) zu Gemüte führen – durchaus beeindruckend.
Falls euch Amazon Polly nichts sagt: Für Polly nutzt man die besagten NTTS-Techniken und kombiniert sie mit KI und maschinellem Lernen, um künstliche Stimmen in noch besserer Qualität zu erstellen. Die Ergebnisse sollen deutlich natürlicher klingen als noch vor einigen Jahren. Dabei ist es eben auch möglich, bestimmte Sprachstile oder auch Akzente einzubinden – siehe Colonel Sanders als gelungenes Beispiel. Über Deep Learning werden spezielle Intonations-Muster generiert, die sich auch an realen Menschen orientieren können.
Auf diese Weise konnte Amazon etwa auch eine Stimme für den Schauspieler Samuel L. Jackson erstellen, die in den USA für Alexa zum Kauf zur Verfügung steht. Der Schauspieler musste nur ein paar Zeilen aufnehmen und auf der Basis jener Aufnahmen konnte Amazon dann für Alexa über NTTS alles Weitere selbst generieren.
Neue Funktion? Der Skill von 1Live hat schon seit einem Jahr (+/-) eine eigene Stimme? Ist das hier ein anderes Verfahren, oder was ist hier neu?