Google Spracherkennung sucht jetzt schneller und genauer

artikel google logoGoogle nutzt seit 2012 Deep Neural Networks (DNNs) als Basis-Technik für seine Spracherkennung in Google Voice. Erst kürzlich hatte man die Techniken nochmals für Interessierte aufgeschlüsselt. Jetzt hat die Firma mithilfe von Connectionist Temporal Classification (CTC) sowie Sequence Discriminative Training Techniques laut eigenen Aussagen eklatante Verbesserungen für Googles Sprach-Dienste erreicht. Abseits des technischen Namedroppings soll das in das Praxis für Anwender bedeuten, dass Googles Sprachsteuerung / -Suche verbale Äußerungen nicht nur wesentlich schneller erkenne, sondern auch bei lauten Umgebungsgeräuschen präziser arbeite als in der Vergangenheit.

Google Voice arbeitet nun mit verbesserten Recurrent Neural Networks (RNN). So ist es beispielsweise möglich, verbessert nicht nur einzelne Laute zu erkennen, sondern auch fließende, phonologische Übergänge. Laut Google habe man erreicht, dass die Spracherkennung und -Suche nun hinter den Kulissen längere Laut-Kombinationen korrekt auswerten könne, trotzdem aber weniger Berechnungen durchführen müsse als bei anderen Techniken. Letzten Endes habe dies dazu geführt, dass die Software nun sowohl schneller als auch präziser arbeite.

google voice

Zunächst hatte Google allerdings laut eigenen Aussagen noch mit zu hohen Latenzen von 300 ms zu kämpfen gehabt. Dies konnte man umgehen, indem die Software nun weitere Phoneme präziser vorausahnen kann als in der Vergangenheit. Eingebunden sind die neuen Techniken bereits in die Sprachsteuerung bzw. -Suche der Google App für Android und iOS sowie die Diktier-Funktion entsprechender Android-Geräte. Summa summarum gebe es für Nutzer nur Vorteile: Die Sprachsteuerung und Sprachsuche benötige weniger Ressourcen, erfasse die Sprache präziser und schneller und sei toleranter gegenüber Hintergrundgeräuschen.

Ein kleines Video, verdeutlicht die Hintergründe:

Aktivieren Sie JavaScript um das Video zu sehen.
Video-Link: https://www.youtube.com/watch?v=5_9Soz3D41g&feature=youtu.be

Wer sich gerne komplett über die technischen Details belesen möchte, findet hier dazu auch den offiziellen Blogbeitrag von Google Research.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

André Westphal

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden. PayPal-Kaffeespende an den Autor.

Das könnte dir auch gefallen…

Mit dem Absenden eines Kommentars willigst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

2 Kommentare

  1. Kleine Frage: Nur für US oder allgemein?

  2. Wann kommt die Spracherkennung auch offline?

Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren. Alternativ könnt ihr euch via E-Mail über alle neuen Beiträge hier im Blog informieren lassen. Einfach eure E-Mail-Adresse hier eingeben, dann bekommt ihr 1x täglich morgens eine Zusammenstellung. Mit dem Absenden willigst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.
Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessern. Durch Deinen Besuch stimmst Du dem zu.