Google Spracherkennung sucht jetzt schneller und genauer

von André Westphal Sep 25, 2015 | 2 Kommentare

Google nutzt seit 2012 Deep Neural Networks (DNNs) als Basis-Technik für seine Spracherkennung in Google Voice. Erst kürzlich hatte man die Techniken nochmals für Interessierte aufgeschlüsselt. Jetzt hat die Firma mithilfe von Connectionist Temporal Classification (CTC) sowie Sequence Discriminative Training Techniques laut eigenen Aussagen eklatante Verbesserungen für Googles Sprach-Dienste erreicht. Abseits des technischen Namedroppings soll das in das Praxis für Anwender bedeuten, dass Googles Sprachsteuerung / -Suche verbale Äußerungen nicht nur wesentlich schneller erkenne, sondern auch bei lauten Umgebungsgeräuschen präziser arbeite als in der Vergangenheit.

Google Voice arbeitet nun mit verbesserten Recurrent Neural Networks (RNN). So ist es beispielsweise möglich, verbessert nicht nur einzelne Laute zu erkennen, sondern auch fließende, phonologische Übergänge. Laut Google habe man erreicht, dass die Spracherkennung und -Suche nun hinter den Kulissen längere Laut-Kombinationen korrekt auswerten könne, trotzdem aber weniger Berechnungen durchführen müsse als bei anderen Techniken. Letzten Endes habe dies dazu geführt, dass die Software nun sowohl schneller als auch präziser arbeite.

Zunächst hatte Google allerdings laut eigenen Aussagen noch mit zu hohen Latenzen von 300 ms zu kämpfen gehabt. Dies konnte man umgehen, indem die Software nun weitere Phoneme präziser vorausahnen kann als in der Vergangenheit. Eingebunden sind die neuen Techniken bereits in die Sprachsteuerung bzw. -Suche der Google App für Android und iOS sowie die Diktier-Funktion entsprechender Android-Geräte. Summa summarum gebe es für Nutzer nur Vorteile: Die Sprachsteuerung und Sprachsuche benötige weniger Ressourcen, erfasse die Sprache präziser und schneller und sei toleranter gegenüber Hintergrundgeräuschen.

Ein kleines Video, verdeutlicht die Hintergründe: