YouTube bekommt KI-gestützte Synchronisation

YouTube möchte das Übersetzen von Videos in andere Sprachen weiter vereinfachen. Hierfür wird man auf das Können von Aloud setzen, ein Unternehmen aus Google-Inkubator Area 120. Bereits 2022 stellte man das Ganze vor, nun wird Aloud in das Unternehmen integriert. Aloud erlaubt es Videoerstellern, Zielsprachen und auch Stimmen festzulegen. Ihr füttert also das Werkzeug mit euren Wünschen und eurem Video – und am Ende kommt bestenfalls ein korrekt synchronisiertes Video in einer anderen Sprache heraus. Aloud setzt dabei – kaum überraschend – auf »KI«. Bislang ist es so, dass man nur eine Handvoll Sprachen unterstützt, laut des Unternehmens sollen aber weitere in Zukunft hinzukommen. Bislang ist nicht bekannt, wann Aloud generell für Ersteller in die Bresche springt, laut YouTube testet man das Ganze bisher mit »hunderten« von Videomachern.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei X, Threads, Facebook, LinkedIn und Instagram.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

10 Kommentare

  1. Beängstigend und Beeindruckend zugleich.

  2. Cool wäre es, wenn es mit der Stimmennachmach-KI verbunden würde.
    Dann würde das Video in einer Fremdsprache trotzdem von der richtigen Person vertont werden.

  3. Ich bezweifle, dass das gut funktionieren wird, wenn man bedenkt, wieviel Schrott auch heute noch bei den automatischen Untertiteln rauskommt. Da wird noch einige Zeit vergehen, bis das mal richtig klappt.

    • Der Ablauf ist etwas komplexer:
      – erst wird ein Transkript erstellt. Vermutlich mit whisper oder Ähnlichem.
      – dann muss dies vom creator geprüft und korrigiert werden.
      – erst darauf wird die Übersetzung und dann eben text to speech angewendet.

    • Der Schrott kommt in Deutsch gut zum Vorschein, aber wenn ich mal Englische Untertitel anmache sind die fast immer Korrekt.

      • Man stelle sich die Möglichkeiten für die Filmindustrie vor, keine Synchronsprecher mehr nötig, sofern das natürlich klingt. Und zeitgleich würden dann wieder Millionen Menschen weltweit arbeitslos, und zwar die Synchronsprecher.

        Wer 1 und 1 zusammenzählt, erkennt das große Ganze hinter Corona, Genspritzen, der Ukraine und den Haarpschen Klimawandel: Nur noch wenige Jahre bis vermutlich einige weitere hunderte Millionen Menschen weltweit arbeitslos würden, kann alles dann ja eine KI übernehmen. Da wäre es doch enorm praktisch, wenn vorher ein paar hunderte Millionen ins Gras beissen und viele auch noch unfruchtbar werden, oder?

    • Ich habe letztens mal mit whisper herumgespielt und mir einige Videos aus der Ukraine mit Untertiteln versehen. Leider kann ich kein Ukrainisch und kein Russisch, aber die Untertitel waren auf jeden Fall gut genug um zu verstehen über was die Leute sich unterhalten haben, bei beiden Sprachen.
      Allerdings musste ich ein großes LLM nehmen, für ordentliche Ergebnisse. Mit mittelgroßem war es schon kaum noch verständlich.
      Und das war der Stand heute mit OpenSource LLM und Russisch/Ukrainisch -> Englisch als Testcase. Wenn da Google bisschen Rechenpower drauf wirft, die Kanalbetreiber die automatischen Übersetzungen korrigieren und diese Korrekturen von Google wieder ins LLM zurück trainiert werden, wird das schon bald von „brauchbar“ zu „wir brauchen nichts anderes mehr“ weiter wachsen.
      Ich kann nur empfehlen mal selbst damit zu spielen. „WhisperDesktop“ für Windows ist absolut einfach zu benutzen, man kann verschiedenen Modelle rein laden und es läuft auf fast jedem Rechner, sogar auf Intel/AMD integrierten Grafiklösungen von vor vielen Jahren. Dann muss man aber etwas geduld haben. Mein AMD 4000er Laptop schafft es nahezu in Echtzeit mit großem, guten LLM. Dann lässt man es sich direkt als Untertiteldatei abspeichern und kann mit VLC oder Texteditor das Ergebnis betrachten.

  4. Einen Steam von zB Inugami Korone oder Sakamata Chloe live übersetzt zu bekommen wäre zwar nett, aber ich wäre schon sehr froh, wenn das bereits mit Untertiteln funktionieren würde. Aktuell braucht es noch immer ein Heer an Clippern die verschiedene Highlights manuell übersetzen.

    • Ich würde davon ausgehen, dass die Übersetzungen von schwierigem Material in naher Zukunft auch zumindest KI-Unterstützt gemacht werden. Es ist sicherlich einfacher beim hören die Untertitel mitzulesen, Stellenweise dann mal kurz zurück zu gehen und eine Formulierung zu verbessern, als den gesamten Text zu übersetzen und tippen.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.