Lumiere: Realistische Videos durch generative KI

Googles Forscher haben in Zusammenarbeit mit Technion, der Tel-Aviv University und dem Weizmann Institute etwas Interessantes gezeigt. Man nennt das Ganze Lumiere und dabei handelt es sich um ein Text-to-Vide-Diffusionsmodell. Vermutlich kennen es viele durch Midjourney oder auch ChatGP: Man wirft Text rein und bekommt ein Bild raus. Seit längerem gibt es das auch für Videosequenzen. Lumiere nutzt neue Architekturen und Algorithmen, um das Ganze auf ein neues Level zu hieven.

Neben Text-to-Video beherrscht Lumiere auch Image-to-Video und Stylized Generation. Schaut man sich die Demovideos auf der Webseite an, dann wird man erkennen, dass das schon ganz großes KI-Kino ist. Zur Realisierung führte man eine „Space-Time U-Net-Architektur“ ein, die die gesamte Dauer des Videos auf einmal generiert. Dies steht im Gegensatz zu bestehenden Video-Modellen, die entfernte Keyframes synthetisieren, gefolgt von einer zeitlichen Super-Auflösung – ein Ansatz, der es schwierig macht, eine globale zeitliche Konsistenz zu erreichen, so die Forscher.

Nett anzuschauen, doch ein Makel bleibt: Es ist ein Forschungsprojekt, weder ihr noch ich können sich irgendwo einloggen, um solche Kunstwerke zu erstellen.

Angebot
USB C Ladegerät, 20W 2Port USBC Netzteil Adapter Mehrfach für iPhone 16/16 Pro/16 Pro Max/16 Plus/15 14 13 12 11...
  • Vielseitiges 2-in-1-Ladedesign: Die Schnellladegerät mit USB-C- und USB-A-Anschlüssen, mit denen Sie...

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei X, Threads, Facebook, LinkedIn und Instagram.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

3 Kommentare

  1. Beeindruckend!

  2. Da sieht aber noch sehr Vieles vollkommen daneben aus. Anscheined ein großes Problem, dass Bewegungen auf verschiedenen Ebenen teils überhaupt nicht zusammenpassen. Deshalb hat man hier wohl auch bewusst Beispiele mit möglichst wenigen Bewegungsebenen gewählt.
    Und über das „Winking-Girl“, welches eher ein Gesicht eines Aliens aufweist, braucht man schon gar nicht zu reden.
    Auch dies ist wieder ein Beispiel für das Dilemma der derzeitigen KI: Es scheint zwar zu funktionieren, aber eben nur bis zu einem gewissen Grad wie bspw. 80%. Aber wie beim autonomen Fahren oder auch LLMs wie ChatGPT & Co. bekommt man die letzten % nicht in den Griff.
    Ob man diese letzten % jemals vernünftig in den Griff bekommt steht meiner Meinung nach in den Sternen. Es wie bei LLMs manuell durch „KI-Flüsterer“ zu schaffen, ist meiner Meinung kein erfolgversprechender Weg, da dieser Aufwand permanent zu treiben wäre und dieser zu groß ist.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.