Google plant Sprachsteuerung, die auch offline funktioniert

artikel google logo

Google tüftelt aktuell an einer Sprachsteuerung, die im Gegensatz zu aktuellen Lösungen wie Apple Siri oder Microsoft Cortana bzw. Google Now auch offline funktionieren soll. Gängige Sprachsteuerungen bzw. -assistentinnen sind aktuell auf eine Internetverbindung angewiesen, da die notwendigen Berechnungen in der Cloud stattfinden. Außerdem greifen die Anwendungen wie Siri etwa auf Quellen wie Wikipedia und Wolfram Alpha zu, um auf Anfragen von Anwendern reagieren zu können. Google schreibt sich jedoch nun auf die Fahnen, eine Lösung in petto zu haben, die „schneller als in Echtzeit“ auch ohne Internetverbindung arbeite.

Laufen soll die Anwendung intern bereits auf Smartphones wie dem Nexus 5. Viel Leistung scheint also zum Funktionieren nicht notwendig zu sein. Laut den zuständigen Forschern bei Google sei das Ziel, mit der Offline-Sprachsteuerung neue Wege zu gehen und eine schlanke Anwendung zu präsentieren, die auch lokal Sprachbedienung ermögliche. Aktuell kommen somit wohl nur etwa mehr als 20 MByte für die wichtigsten Dateien der Anwendung zusammen. Auf einem Nexus 5 konnte die Sprachsteuerung bei einem Diktat eine Fehlerquote von 13,5 % bei der Erkennung erreichen.

google new logo

Als Basis dienen der Sprachsteuerung Techniken zum maschinellen Lernen – konkret LSTM (Long Short-Term Memory), RNN (Recurrent Neural Network) und CTC (Connectionist Temporal Classification) sowie SMBR (State-Level Minimum Bayes Risk). Als mögliche Befehle sollen auch offline Eingaben möglich sein wie: „Sende eine E-Mail an Anton Gaston: ‚Können wir den Termin verlegen?'“. Damit die Eingaben verarbeitet werden, müssen aber eben präzise Angaben enthalten sein, wie in diesem Fall der korrekte Name der adressierten Person. Entsprechend benötigt die Offline-Sprachsteuerung z. B. Zugriff auf die jeweilige Kontaktliste. Für das akustische Grundmodell werteten die Forscher rund 2000 Stunden Sprachsuchen bei Google aus und fügte auch Sprachsamples aus YouTube hinzu.

Klingt alles auf dem Papier erstmal super. Doch wann und ob die Offline-Sprachsteuerung auch irgendwann reguläre Nutzer erreichen soll, steht noch in den Sternen.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden. PayPal-Kaffeespende an den Autor.

11 Kommentare

  1. Wäre schon cool, ich finde es immer etwas komisch, dass Google Now/Siri für Sachen wie „Stelle den Wecker auf XYZ“ oder eben „Schreibe eine SMS an ZYX“ Internetzugang brauchen, v.A. wenn die Spracherkennung theoretisch auch offline funktioniert (oder wofür lade ich sonst die Offline-Sprachdaten?)

  2. Was heißt denn „schneller als in Echtzeit“? Bekomme ich die Antwort dann schon, bevor ich meine Frage zuende ausgesprochen habe?

  3. schneller als in Echtzeit? Herr Westphal … welche Walldorfschule haben Sie denn besucht? Echtzeit ist allein schon ein komischer Begriff, den es eigentlich nicht geben sollte, oder den niemand der irgendetwas mit Technik zu tun hat auch nur benutzen sollte, da wirklich NICHTS in Echtzeit passiert. Schneller als Echtzeit bringt mir dann nur noch ein Lachen auf mein Gesicht, da ich mir einbilde, dass es tatsächlich dümmere Menschen als mich gibt, die das ersten nicht kapieren, zweitens überlesen oder drittens sogar stillschweigend akzeptieren.

  4. Florian H. says:

    Ich würde mich sehr über eine einfache offline Sprachsteuerung freuen. Wecker + Kontakte anrufen würde mir fürs erste reichen.

    @filesharer123:

    Mit schneller als Echtzeit ist hier sicher gemeint, dass ein Satz von 3 Sekunden (würde er nicht erst aufgenommen, sondern lege komplett schon als Datei vor), in weniger als 3 Sekunden in Schrift umgesetzt werden kann.

    Ihre Ansicht von Echtzeit und Technik teile ich nicht. Haben die Echtzeitbetriebssysteme keine Berechtigung zu existieren, oder sollten sie „Rechtzeitbetriebssysteme“ heißen, oder „Genauzeitbetriebssysteme“? Nehmen wir eine MP3-Datei welche abgespielt werden soll, da möchte ich dass diese in einem ganz bestimmten Tempo abgespielt wird, damit es auch nicht zu schnell oder langsam ist. Genau das ist für mich ein Fall wo es auf Echtzeit ankommt. Es muss mit der Geschwindigkeit der Zeitauffassung von uns Menschen übereinstimmen. Bei Echtzeitbetriebssystemen kommt es hingegen meist auf Rechtzeitigkeit an, eine Berechnung muss also garantiert in einem gewissen Zeitrahmen beendet sein.

  5. Rolf Brandt says:

    Definition von Echtzeit:
    „Der Begriff Echtzeit (englisch real-time) charakterisiert den Betrieb informationstechnischer Systeme, die bestimmte Ergebnisse zuverlässig innerhalb einer vorbestimmten Zeitspanne, zum Beispiel in einem festen Zeitraster, liefern können.“

    Quelle: https://de.wikipedia.org/wiki/Echtzeit

  6. Herrlich flache Kommentare

  7. Yup, Echtzeit: reinsprechen und auf Antwort vom Server warten. Im Gegensatz dazu ohne Wartezeit wenn Befehle offline erkannt und direkt ausgeführt werden.

    @HansF
    Mit „Spracherkennung“ hast du schon den richtigen Stichpunkt. Die braucht Speicherplatz und Rechenkapazität. Sprachdaten sind mehrere GB gross. Thesaurus oder unterschiedliche reguläre Ausdrücke die das Selbe aussagen ebenfalls. Um natürliche Sprache zu verstehen braucht es Rechenkapazität. Ein Assistent kann auch lernen und davon profitieren wenn er auf einem anderen Gerät benutzt wird.

    Seit dem 3GS (iOS 3.1) gibt’s auch Voice Control. Die Funktioniert offline kann aber kaum was.

  8. Offline oder im edge braucht eine Sprachsuche echt Zeit

  9. Wird aber echt Zeit, dass so eine Funktion Einzug hält.

  10. Ich habe echt Zeit, mir solche Kommentare aus zu denken.

  11. Lächerlich!… Schon längst überfällig. Konnte Windows Mobile schon vor über 10 Jahren ausreichend gut mit einer Datei von ~3MB! für Voice Command.
    Wie lang schlafen die Hersteller noch auf den Bäumen und die Mehrheit der Leute glaubt mit intelligenter online Sprachsteuerung sei alles in Butter, wenn man in empfangsschwachen Gebieten (z. B. auf der Autobahn am Steuer) nicht mal ein Anruf abgesetzt oder ein Song auf Zuruf gespielt werden kann. Mehr braucht kein Schwein! Aber nicht mal die zentralen Funktionen sind offline vernünftig umgesetzt. Das ist mehr als peinlich.
    Ich muss nicht alle 2 Minuten fragen können, ob ich einen Schirm brauche oder wie groß Obama ist. Was ein Rotz!