Adobe VoCo: Sprachaufnahmen inhaltlich ändern – so simpel wie mit Texten
Wenn das mal nicht noch irgendwann einmal zu Kontroversen führt… Adobe hat auf seiner alljährlichen MAX-Conference in San Diego ein neues Projekt mit dem Namen VoCo vorgestellt, das es einfacher denn je machen soll, aufgenommene Sprachsamples nachträglich abzuändern und nötigenfalls einen komplett anderen Kontext zu erzeugen. Was es dazu braucht, sind lediglich 20 Minuten Sprachmaterial einer einzelnen Person, welche vom Tool analysiert, transkribiert und anschließend in ein Stimmenmodell umgewandelt werden. So sei es anfangs zwar noch möglich herauszuhören, wenn ein Wort nachträglich abgeändert wurde, das könnte sich aber mit der Zeit ändern.
Denn das Tool verfeinere seine Techniken über die Zeit immer weiter. Man kann sich das in etwa so vorstellen:
Eine Audioaufnahme einer Person beinhaltet beispielsweise den Satz „Und dann habe ich für fünfzig Euro bestes Rindfleisch bekommen!“. Dieser Satz existiert neben der Tonspur auch als Text im Tool, welcher nun direkt wie in Word, etc geändert werden kann. Machen wir aus dem Satz nun „Und dann hat er einfach drei Wochen Kater nach dem Abend.“ und speichern diesen so, bekommt die komplette Sprachaufnahme einen völlig anderen Kontext. Wenn VoCo das Sprachmodell erst einmal „perfekt“ beherrscht, soll man angeblich keine künstlichen Eingriffe mehr erkennen können. Vielleicht ist es ganz gut, dass VoCo während der aktuellen Präsidentschafts-Qual in Vereinigten Staaten noch nicht finalisiert ist.
Adobe selbst spricht auch nicht davon, das Tool als eigenständiges Produkt vermarkten zu wollen. Vielmehr sei zu erwarten, dass dieses in andere Produkten des Unternehmens implementiert werden könnte. Interessant ist es auf jeden Fall.
Dokumenten und Fotos darf man ja schon lange nicht trauen. Jetzt auch noch Tonaufnahmen. Prost Mahlzeit!
Uiuiui, das ist keine gute Entwicklung finde ich. Das gibt nur Ärger und Manipulationsvorwürfe 🙁 Sätze werden ja eh schon oftmals aus dem Kontext gezogen und woanders zu verwendet und dann sowas hier. Puh…
Dann sollte es ja rein theoretisch ne perfekte Sprachausgabe bei den Assistenten geben. Dann muss zB Frau Google nur noch die 20 Min was lesen und daraus entsteht ne natürliche Stimme und nicht so wie die Sprachausgabe momentan noch zu synthetisch klingt.
@Hotti
Tonaufnahmen kann man nicht trauen seitdem es Tonaufnahmen gibt. Wenn’s um die Wurst geht gibt es heutzutage viel bessere Methoden um herauszufinden ob eine Aufnahme verändert wurde.
http://www.bbc.com/news/science-environment-20629671
Methode bei der minimale Schwankungen der Frequenz des Stromnetzes aufgezeichnet werden, die Schwankungen schlagen sich in Form von nicht hörbarem Brummen in Audioaufnahmen wieder die in der Nähe des Stromnetzes (Masten, Leitungen, Steckdosen, etc) aufgezeichnet wurden.
Schwankungen des europ. Netzes kann man zBsp hier in Echtzeit sehen: http://www.mainsfrequency.com