Amazon Alexa erhält bald eine Nachrichtensprecher-Stimme
Amazons digitale Assistentin Alexa hat bereits einiges auf dem Kasten. Nun sollen bald noch ein paar neue Tricks hinzukommen. Unter anderem soll Alexa eine Art Nachrichtensprecher-Stimme erhalten. Mit jener Stimme soll Alexa dann z. B. Artikel und News vorlesen. Die Betonung soll eben Menschen ähneln, welche z. B. im Fernsehen Nachrichten vortragen.
Erreicht hat Amazon diese neue Stimmmodulation für Alexa über eine Technik namens NTTS (Neural Text-to-Speech). Dabei kommt unter anderem Machine Learning zum Einsatz, um ausdrucksstarke Stimmen schneller entwickeln zu können. Aktuell basiert Alexa noch auf einer anderen Technik namens Concatenative Speech Synthesis, die es schon seit mehreren Jahrzehnten gibt. Damit ist gemeint, dass Sprach-Samples in verschiedene Phoneme aufgebrochen werden, die man später neu zusammensetzt, um Wörter und Sätze zusammenzustellen.
Hier hört ihr einmal die unterschiedlichen Methoden im Vergleich:
Concatenative:
Neural text-to-speech (NTTS):
Newscaster NTTS:
Neue Methoden zur Erstellung künstlicher Stimmen lösen aktuell die Concatenative Speech Synthesis nach und nach ab. Etwa setzt auch Google für seinen Assistant mittlerweile auf neue Methoden mit KI-Unterstützung und maschinellem Lernen. Amazon will Alexa wiederum in den kommenden Wochen um die neue Nachrichtensprecher-Stimme aufrüsten.
Entwickelt hat man die Stimme, indem man echte Nachrichten bzw. Audioclips aus jenen ausgewertet hat, um über maschinelles Lernen typische Betonungen und Artikulierungen zu erkennen. Dadurch könne man nun für Alexa eine Wiedergabe erreichen, die deutlich näher an realen Nachrichtensprechern sei als bisher. Laut Amazon sei die Implementierung mit der Hilfe der neuen NTTS-Techniken deutlich schneller möglich gewesen, als jenes in der Vergangenheit bei neuen Stimmen der Fall gewesen sei.
Das eröffnet freilich auch das Potential Alexa in Zukunft um weitere Stimmen bzw. Nuancen zu erweitern. 2019 könnte es da wohl in diesem Bezug spannend werden!
via The Verge
Mir gefällt ja Googa besser (so nennen unsere Kinder die Stimme von Google Maps), aber die Computerstimmen werden immer glaubhafter.
Schade, dass das alles weiterhin nur Spielkram ist.*Einfachste* Sachen… „Wie lange hat die Post heute noch geöffnet?“ oder auch „Was läuft gerade auf Vox?“ kann keiner bis heute beantworten. (ich weiß Alexa Skills etc. aber das ist alles viel zu kompliziert und klappt vorne und hinten nicht)
Benutzt jemand hier die Geräte für mehr als nur Licht ein- und ausschalten und Musik hören?
Was ist denn überhaupt das Zielpublikum? Gelähmte, die nur sprechen können? Nicht böse gemeint, aber mich würde die Zielgruppe mal interessieren. Licht kann ich in 2 Sekunden selbst einschalten, identisch mit Musik. Für beides brauch ich kein Gerät, was 24/7 zuhört.
Ich will ja nun nichts weltbewegendes. Google schafft es mir ja auch anzuzeigen, ob die „Post“ oder „Penny“ oder was auch immer, jetzt noch geöffnet hat. Nur bei Google Home soll ich zum Handy greifen? Das passt irgendwie nicht.
Im Auto finde ich es schon praktisch. Und bei Nachfragen, bei denen ich weiß, dass ich verstanden werde und eine Antwort bekomme, mache ich das auch gerne (Wann geht die Sonne auf? Wie wird das Wetter heute Abend?).
Ich denke für die meißten sind SmartHome, Musiksteuerung, Timer, Erinnerungen und derlei Dinge die häufigsten Anwendungen.
Persönlich nutze ich Alexa nun aber auch immer mehr für „Feedback“. Anstatt eine alte scheppernde Türklingel rasselt spricht nun Alexa in jedem Raum das es geklingelt hat. Ist der 3d Druck fertig, sagt es mir Alexa in den zuvor festgelegten Räumen. Geht der Alarm los, ertönen Ansagen aus allen Alexa Lautsprechern. Bin ich dabei zu gehen und irgendwo ist noch ein Fenster geöffnet, sagt es mir Alexa.
Hinzu kommt Alexa als Input, um z.B. den Saugroboter nur einen bestimmten Bereich saugen zu lassen, Temperaturen abzufragen oder dergleichen.
Es steckt unglaublich viel Potenzial in den Systemen, aber momentan kann man dieses auch nur ausschöpfen wenn man alles über wirklich smarte SmartHome Systeme ansteuert (ioBroker, HomeAssistant, FHEM um mal ein paar zu nennen). Um solch ein System auf einem Raspberry (oder NUC oder dergleichen) kommt man derzeit noch nicht herum und ich vermute mal dass sich dies auch nicht ändern wird wenn man die Freiheit haben möchte alles mögliche Herstellerübergreifend zu kombinieren. Insbesondere wenn möglichst viel auch noch ohne die Cloud umgesetzt werden soll.
Und zum Licht. Lichtschalter sind aber auch nur so lange praktikabel wie man simples Licht an/aus möchte. Sobald Szenen, oder gar einzeln ansteuerbare LEDs (WS2812B Strips) ins Spiel kommen geht nichts über eine Sprachsteuerung oder ein dezent platziertes Tablet. Außer man hat komplexe (und teure) KNX Taster oder dergleichen verbaut.
Google Assistent Skill?
Nur wer fragt solche Fragen im Alltag?
Ich weiß wie lange die Geschäfte hier auf haben, sollte man am Wohnort doch wissen!
Was läuft auf VOX, fragt hier keiner, wir sind keine zapper.
Aber dafür geht alles andere relevante, Licht steuern, TV steuern, Timer, Erinnerung, Wetter, Einkaufsliste, Termin erstellen, Abfallkalender, meiner Frau sagen sie soll abwaschen xD
Alexa ist so unwissend, weil sie auf Bing basiert. Ich nutze sie für die Lichtsteuerung, TV-Steuerung über Harmony, natürlich Musik und News, Timer, Wecker und bald Heizungsteuerung. Dann bleibt nur noch die Rolladensteuerung übrig, dafür habe ich noch nichts Passendes gefunden.
Bei homatic oder wie das heißt geht Rolladen Steuerung mit Alexa^^
Nimm einen Shelly 2, das funktioniert super!
Unglaublich spannendes Thema. Aber auch (ich weiß…) wieder etwas besorgniserregend. Wann werden wir Menschen nicht mehr wissen, ob wir jetzt mit einem Menschen oder dem Computer sprechen..?
Fangfragen stellen 😉 . In der Regel weiß ich aber, mit wem ich spreche, und beim Telefon bin ich dann eher am auflegen, wenn mich eine automatische Stimme nervt…. (ist doch eigentlich ganz einfach, oder ?) In der Regel hat man aber ein Gegenüber, es sei denn es gibt bald lebensechte Hologramme (aber das wird noch etwas dauern…. 😉 )
Zur Realität: Was sind eigentlich „Nachrichtensprecher-Stimmen“?! Hab mir die Sprachbeispiele angehört, es handelt sich imho um eine zunehmende Annäherung an einer natürlichen Aussprache, nicht mehr und auch nicht weniger.
Man hört doch ganz deutlich, ob ein Nachrichtensprecher spricht. Das ist eine ganz bestimmte markante Art.
Ich möchte die Stimme von Ute Meinhart oder Evelyn Hamann (da ist man sich offenbar nicht ganz sicher) aus „Dark Star“.
„Herzlichen Glückwunsch. Sie haben sich entschlossen, den Aufzug zu reinigen.“ 🙂
Nimm einen Shelly 2, das funktioniert super!