YouTube bekommt KI-gestützte Synchronisation
YouTube möchte das Übersetzen von Videos in andere Sprachen weiter vereinfachen. Hierfür wird man auf das Können von Aloud setzen, ein Unternehmen aus Google-Inkubator Area 120. Bereits 2022 stellte man das Ganze vor, nun wird Aloud in das Unternehmen integriert. Aloud erlaubt es Videoerstellern, Zielsprachen und auch Stimmen festzulegen. Ihr füttert also das Werkzeug mit euren Wünschen und eurem Video – und am Ende kommt bestenfalls ein korrekt synchronisiertes Video in einer anderen Sprache heraus. Aloud setzt dabei – kaum überraschend – auf »KI«. Bislang ist es so, dass man nur eine Handvoll Sprachen unterstützt, laut des Unternehmens sollen aber weitere in Zukunft hinzukommen. Bislang ist nicht bekannt, wann Aloud generell für Ersteller in die Bresche springt, laut YouTube testet man das Ganze bisher mit »hunderten« von Videomachern.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Beängstigend und Beeindruckend zugleich.
Cool wäre es, wenn es mit der Stimmennachmach-KI verbunden würde.
Dann würde das Video in einer Fremdsprache trotzdem von der richtigen Person vertont werden.
Ich bezweifle, dass das gut funktionieren wird, wenn man bedenkt, wieviel Schrott auch heute noch bei den automatischen Untertiteln rauskommt. Da wird noch einige Zeit vergehen, bis das mal richtig klappt.
Der Ablauf ist etwas komplexer:
– erst wird ein Transkript erstellt. Vermutlich mit whisper oder Ähnlichem.
– dann muss dies vom creator geprüft und korrigiert werden.
– erst darauf wird die Übersetzung und dann eben text to speech angewendet.
Der Schrott kommt in Deutsch gut zum Vorschein, aber wenn ich mal Englische Untertitel anmache sind die fast immer Korrekt.
Man stelle sich die Möglichkeiten für die Filmindustrie vor, keine Synchronsprecher mehr nötig, sofern das natürlich klingt. Und zeitgleich würden dann wieder Millionen Menschen weltweit arbeitslos, und zwar die Synchronsprecher.
Wer 1 und 1 zusammenzählt, erkennt das große Ganze hinter Corona, Genspritzen, der Ukraine und den Haarpschen Klimawandel: Nur noch wenige Jahre bis vermutlich einige weitere hunderte Millionen Menschen weltweit arbeitslos würden, kann alles dann ja eine KI übernehmen. Da wäre es doch enorm praktisch, wenn vorher ein paar hunderte Millionen ins Gras beissen und viele auch noch unfruchtbar werden, oder?
Oh weia.
Vielleicht wärs ganz gut, wenn wir aussterben.
Ich habe letztens mal mit whisper herumgespielt und mir einige Videos aus der Ukraine mit Untertiteln versehen. Leider kann ich kein Ukrainisch und kein Russisch, aber die Untertitel waren auf jeden Fall gut genug um zu verstehen über was die Leute sich unterhalten haben, bei beiden Sprachen.
Allerdings musste ich ein großes LLM nehmen, für ordentliche Ergebnisse. Mit mittelgroßem war es schon kaum noch verständlich.
Und das war der Stand heute mit OpenSource LLM und Russisch/Ukrainisch -> Englisch als Testcase. Wenn da Google bisschen Rechenpower drauf wirft, die Kanalbetreiber die automatischen Übersetzungen korrigieren und diese Korrekturen von Google wieder ins LLM zurück trainiert werden, wird das schon bald von „brauchbar“ zu „wir brauchen nichts anderes mehr“ weiter wachsen.
Ich kann nur empfehlen mal selbst damit zu spielen. „WhisperDesktop“ für Windows ist absolut einfach zu benutzen, man kann verschiedenen Modelle rein laden und es läuft auf fast jedem Rechner, sogar auf Intel/AMD integrierten Grafiklösungen von vor vielen Jahren. Dann muss man aber etwas geduld haben. Mein AMD 4000er Laptop schafft es nahezu in Echtzeit mit großem, guten LLM. Dann lässt man es sich direkt als Untertiteldatei abspeichern und kann mit VLC oder Texteditor das Ergebnis betrachten.
Einen Steam von zB Inugami Korone oder Sakamata Chloe live übersetzt zu bekommen wäre zwar nett, aber ich wäre schon sehr froh, wenn das bereits mit Untertiteln funktionieren würde. Aktuell braucht es noch immer ein Heer an Clippern die verschiedene Highlights manuell übersetzen.
Ich würde davon ausgehen, dass die Übersetzungen von schwierigem Material in naher Zukunft auch zumindest KI-Unterstützt gemacht werden. Es ist sicherlich einfacher beim hören die Untertitel mitzulesen, Stellenweise dann mal kurz zurück zu gehen und eine Formulierung zu verbessern, als den gesamten Text zu übersetzen und tippen.