Google: Künstliche Intelligenz kann einzelne Stimmen in einer Menschenmenge erkennen
Wenn Menschen mehrere Stimmen gleichzeitig hören, ist es meist relativ einfach diese voneinander zu unterscheiden. Genau mit dieser Herausforderungen haben Stimmerkennungen noch zu kämpfen. Sind mehrere Personen im Raum, fällt es zum Beispiel Alexa sichtlich schwer, die eigentliche Frage zu verstehen und die korrekte Antwort zu geben. Google hat auf seinem Research Blog nun eine Technik vorgestellt, die in der Lage ist, genau diese Aufgabe zu bewältigen.
Dahinter steckt ein Deep-Learning-System, welches spezifische Stimmen erkennen kann, vorausgesetzt es sieht die Gesichter der sprechenden Personen. Das Team trainierte ein neuronales Netz mit verschiedenen gestellten Szenarien, bei denen mehrere Personen sichtbar sprechen und Hintergrundgeräusche präsent waren. Damit konnte die KI lernen, wie man die Stimmen voneinander trennt und in separate Tracks einteilt. Das Ergebnis ist gleichermaßen bemerkenswert wie unheimlich und wird in den folgenden Videos demonstriert:
Google schaut sich gerade an, wie man die Technik in seinen Produkten nutzen kann. Am naheliegendsten ist der Einsatz zur Transkription von YouTube-Videos und Co., was ebenfalls ziemlich gut funktioniert:
Ohne Google etwas Schlechtes unterstellen zu wollen, wissen wir dennoch, dass auch das US-Militär Googles KI-Technologien benutzt. Das wäre dann ein prima Beispiel, um die Überwachung und das Mithören von Gesprächen in Gruppen besser zu machen.
Möglicherweise werden ja dann Youtube Videos nach Wörtern oder Sätzen durchsuchbar. Kann ganz nützlich sein…. Negative Effekte nicht ganz auszuschließen