Google Spracherkennung sucht jetzt schneller und genauer

artikel google logoGoogle nutzt seit 2012 Deep Neural Networks (DNNs) als Basis-Technik für seine Spracherkennung in Google Voice. Erst kürzlich hatte man die Techniken nochmals für Interessierte aufgeschlüsselt. Jetzt hat die Firma mithilfe von Connectionist Temporal Classification (CTC) sowie Sequence Discriminative Training Techniques laut eigenen Aussagen eklatante Verbesserungen für Googles Sprach-Dienste erreicht. Abseits des technischen Namedroppings soll das in das Praxis für Anwender bedeuten, dass Googles Sprachsteuerung / -Suche verbale Äußerungen nicht nur wesentlich schneller erkenne, sondern auch bei lauten Umgebungsgeräuschen präziser arbeite als in der Vergangenheit.

Google Voice arbeitet nun mit verbesserten Recurrent Neural Networks (RNN). So ist es beispielsweise möglich, verbessert nicht nur einzelne Laute zu erkennen, sondern auch fließende, phonologische Übergänge. Laut Google habe man erreicht, dass die Spracherkennung und -Suche nun hinter den Kulissen längere Laut-Kombinationen korrekt auswerten könne, trotzdem aber weniger Berechnungen durchführen müsse als bei anderen Techniken. Letzten Endes habe dies dazu geführt, dass die Software nun sowohl schneller als auch präziser arbeite.

google voice

Zunächst hatte Google allerdings laut eigenen Aussagen noch mit zu hohen Latenzen von 300 ms zu kämpfen gehabt. Dies konnte man umgehen, indem die Software nun weitere Phoneme präziser vorausahnen kann als in der Vergangenheit. Eingebunden sind die neuen Techniken bereits in die Sprachsteuerung bzw. -Suche der Google App für Android und iOS sowie die Diktier-Funktion entsprechender Android-Geräte. Summa summarum gebe es für Nutzer nur Vorteile: Die Sprachsteuerung und Sprachsuche benötige weniger Ressourcen, erfasse die Sprache präziser und schneller und sei toleranter gegenüber Hintergrundgeräuschen.

Ein kleines Video, verdeutlicht die Hintergründe:

Wer sich gerne komplett über die technischen Details belesen möchte, findet hier dazu auch den offiziellen Blogbeitrag von Google Research.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden. PayPal-Kaffeespende an den Autor.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

2 Kommentare

  1. Kleine Frage: Nur für US oder allgemein?

  2. Wann kommt die Spracherkennung auch offline?

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.