Google plant Sprachsteuerung, die auch offline funktioniert

13. März 2016 Kategorie: Google, Mobile, Software & Co, geschrieben von: André Westphal

artikel google logo

Google tüftelt aktuell an einer Sprachsteuerung, die im Gegensatz zu aktuellen Lösungen wie Apple Siri oder Microsoft Cortana bzw. Google Now auch offline funktionieren soll. Gängige Sprachsteuerungen bzw. -assistentinnen sind aktuell auf eine Internetverbindung angewiesen, da die notwendigen Berechnungen in der Cloud stattfinden. Außerdem greifen die Anwendungen wie Siri etwa auf Quellen wie Wikipedia und Wolfram Alpha zu, um auf Anfragen von Anwendern reagieren zu können. Google schreibt sich jedoch nun auf die Fahnen, eine Lösung in petto zu haben, die „schneller als in Echtzeit“ auch ohne Internetverbindung arbeite.

Laufen soll die Anwendung intern bereits auf Smartphones wie dem Nexus 5. Viel Leistung scheint also zum Funktionieren nicht notwendig zu sein. Laut den zuständigen Forschern bei Google sei das Ziel, mit der Offline-Sprachsteuerung neue Wege zu gehen und eine schlanke Anwendung zu präsentieren, die auch lokal Sprachbedienung ermögliche. Aktuell kommen somit wohl nur etwa mehr als 20 MByte für die wichtigsten Dateien der Anwendung zusammen. Auf einem Nexus 5 konnte die Sprachsteuerung bei einem Diktat eine Fehlerquote von 13,5 % bei der Erkennung erreichen.

google new logo

Als Basis dienen der Sprachsteuerung Techniken zum maschinellen Lernen – konkret LSTM (Long Short-Term Memory), RNN (Recurrent Neural Network) und CTC (Connectionist Temporal Classification) sowie SMBR (State-Level Minimum Bayes Risk). Als mögliche Befehle sollen auch offline Eingaben möglich sein wie: „Sende eine E-Mail an Anton Gaston: ‚Können wir den Termin verlegen?'“. Damit die Eingaben verarbeitet werden, müssen aber eben präzise Angaben enthalten sein, wie in diesem Fall der korrekte Name der adressierten Person. Entsprechend benötigt die Offline-Sprachsteuerung z. B. Zugriff auf die jeweilige Kontaktliste. Für das akustische Grundmodell werteten die Forscher rund 2000 Stunden Sprachsuchen bei Google aus und fügte auch Sprachsamples aus YouTube hinzu.

Klingt alles auf dem Papier erstmal super. Doch wann und ob die Offline-Sprachsteuerung auch irgendwann reguläre Nutzer erreichen soll, steht noch in den Sternen.



Über den Autor: André Westphal

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden. PayPal-Kaffeespende an den Autor.

André hat bereits 1062 Artikel geschrieben.

11 Kommentare

HansF 13. März 2016 um 22:43 Uhr

Wäre schon cool, ich finde es immer etwas komisch, dass Google Now/Siri für Sachen wie „Stelle den Wecker auf XYZ“ oder eben „Schreibe eine SMS an ZYX“ Internetzugang brauchen, v.A. wenn die Spracherkennung theoretisch auch offline funktioniert (oder wofür lade ich sonst die Offline-Sprachdaten?)

Tchooe 13. März 2016 um 22:54 Uhr

Was heißt denn „schneller als in Echtzeit“? Bekomme ich die Antwort dann schon, bevor ich meine Frage zuende ausgesprochen habe?

filesharer123 14. März 2016 um 01:24 Uhr

schneller als in Echtzeit? Herr Westphal … welche Walldorfschule haben Sie denn besucht? Echtzeit ist allein schon ein komischer Begriff, den es eigentlich nicht geben sollte, oder den niemand der irgendetwas mit Technik zu tun hat auch nur benutzen sollte, da wirklich NICHTS in Echtzeit passiert. Schneller als Echtzeit bringt mir dann nur noch ein Lachen auf mein Gesicht, da ich mir einbilde, dass es tatsächlich dümmere Menschen als mich gibt, die das ersten nicht kapieren, zweitens überlesen oder drittens sogar stillschweigend akzeptieren.

Florian H. 14. März 2016 um 08:33 Uhr

Ich würde mich sehr über eine einfache offline Sprachsteuerung freuen. Wecker + Kontakte anrufen würde mir fürs erste reichen.

@filesharer123:

Mit schneller als Echtzeit ist hier sicher gemeint, dass ein Satz von 3 Sekunden (würde er nicht erst aufgenommen, sondern lege komplett schon als Datei vor), in weniger als 3 Sekunden in Schrift umgesetzt werden kann.

Ihre Ansicht von Echtzeit und Technik teile ich nicht. Haben die Echtzeitbetriebssysteme keine Berechtigung zu existieren, oder sollten sie „Rechtzeitbetriebssysteme“ heißen, oder „Genauzeitbetriebssysteme“? Nehmen wir eine MP3-Datei welche abgespielt werden soll, da möchte ich dass diese in einem ganz bestimmten Tempo abgespielt wird, damit es auch nicht zu schnell oder langsam ist. Genau das ist für mich ein Fall wo es auf Echtzeit ankommt. Es muss mit der Geschwindigkeit der Zeitauffassung von uns Menschen übereinstimmen. Bei Echtzeitbetriebssystemen kommt es hingegen meist auf Rechtzeitigkeit an, eine Berechnung muss also garantiert in einem gewissen Zeitrahmen beendet sein.

Rolf Brandt 14. März 2016 um 08:57 Uhr

Definition von Echtzeit:
„Der Begriff Echtzeit (englisch real-time) charakterisiert den Betrieb informationstechnischer Systeme, die bestimmte Ergebnisse zuverlässig innerhalb einer vorbestimmten Zeitspanne, zum Beispiel in einem festen Zeitraster, liefern können.“

Quelle: https://de.wikipedia.org/wiki/Echtzeit

Egon 14. März 2016 um 13:03 Uhr

Herrlich flache Kommentare

Kalle 14. März 2016 um 13:05 Uhr

Yup, Echtzeit: reinsprechen und auf Antwort vom Server warten. Im Gegensatz dazu ohne Wartezeit wenn Befehle offline erkannt und direkt ausgeführt werden.

@HansF
Mit „Spracherkennung“ hast du schon den richtigen Stichpunkt. Die braucht Speicherplatz und Rechenkapazität. Sprachdaten sind mehrere GB gross. Thesaurus oder unterschiedliche reguläre Ausdrücke die das Selbe aussagen ebenfalls. Um natürliche Sprache zu verstehen braucht es Rechenkapazität. Ein Assistent kann auch lernen und davon profitieren wenn er auf einem anderen Gerät benutzt wird.

Seit dem 3GS (iOS 3.1) gibt’s auch Voice Control. Die Funktioniert offline kann aber kaum was.

Ben Ismail 14. März 2016 um 23:03 Uhr

Offline oder im edge braucht eine Sprachsuche echt Zeit

Ben Ismail 14. März 2016 um 23:04 Uhr

Wird aber echt Zeit, dass so eine Funktion Einzug hält.

Ben Ismail 14. März 2016 um 23:05 Uhr

Ich habe echt Zeit, mir solche Kommentare aus zu denken.

Ferdi 2. April 2016 um 00:45 Uhr

Lächerlich!… Schon längst überfällig. Konnte Windows Mobile schon vor über 10 Jahren ausreichend gut mit einer Datei von ~3MB! für Voice Command.
Wie lang schlafen die Hersteller noch auf den Bäumen und die Mehrheit der Leute glaubt mit intelligenter online Sprachsteuerung sei alles in Butter, wenn man in empfangsschwachen Gebieten (z. B. auf der Autobahn am Steuer) nicht mal ein Anruf abgesetzt oder ein Song auf Zuruf gespielt werden kann. Mehr braucht kein Schwein! Aber nicht mal die zentralen Funktionen sind offline vernünftig umgesetzt. Das ist mehr als peinlich.
Ich muss nicht alle 2 Minuten fragen können, ob ich einen Schirm brauche oder wie groß Obama ist. Was ein Rotz!


Es kann bis zu 5 Minuten dauern, bis dein Kommentar erscheint.



Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren. Alternativ könnt ihr euch via E-Mail über alle neuen Beiträge hier im Blog informieren lassen. Einfach eure E-Mail-Adresse hier eingeben, dann bekommt ihr 1x täglich morgens eine Zusammenstellung.