OpenAI stellt Text-zu-Video-Modell „Sora“ vor
Aktuell geht es im Bereich der künstlichen Intelligenzen Schlag auf Schlag. Erst hievte Google Gemini auf die nächste Stufe mit Gemini 1.5, nun melden sich die ChatGPT-Entwickler OpenAI zu Wort und zeigen ihr neues Baby „Sora“. Bei Sora handelt es sich um ein neues Text-zu-Video-Modell, welches auf früheren Forschungen in DALL·E und GPT-Modellen aufbaut und die Recaptions-Technik von DALL-E 3 verwendet, bei der hochdeskriptive Bildunterschriften für die visuellen Trainingsdaten generiert werden.
Das sorgt schon jetzt für beeindruckende Ergebnisse. Werft dazu unbedingt mal einen Blick auf die Demovideos, welche OpenAI in der Ankündigung zeigt, bzw. wir hier eingebunden haben. Man gibt dabei aber natürlich auch offen zu, dass Sora bei Weitem noch nicht perfekt ist und hier und da Inhalte missversteht und entsprechend kuriose Physikexperimente darstellt. In seinem frühen Stadium packt das Modell bis zu 60-sekündige Videosequenzen. Selbst die Bewegung der Kamera und dergleichen kann dabei per Prompt definiert werden.
Natürlich will man sich auch in Sachen Sicherheit von seiner bemühten Seite zeigen. So arbeite man schon jetzt mit Fachleuten auf den Gebieten Fehlinformation, hasserfüllte Inhalte und Voreingenommenheit sehen. Aktuell bekommt selbstredend nur eine Handvoll Menschen Zugriff auf Sora, unter anderem, um Feedback zu generieren.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Bye Bye Filmindustrie…. Hätte nicht gedacht, dass es gleich Anfang 2024 kommt.
Ein Film ist dann doch noch etwas mehr, zumindest ein guter Film.
Im ersten Video, bei ca. 16 Sekunden tauscht das rechte Bein mit dem linken.
Super, danke für diesen Kommentar. Hat mich richtig bereichert.
Ist nur ein Hinweis darauf, das AI zur Zeit nicht viel mehr als Budenzauber ist und von dem, was uns präsentiert wird nicht viel versteht.
Ja, es ist halt wie bei allen anderen KI-Dingen. Im ersten Moment beeindruckend, aber dann merkt man bei Text, das halluziniert wird und bei Bildern und Videos diverse Fehler enthalten sind.
Es sind halt immer die letzten 10-30% die fehlen und wir daher auch heute noch nicht autonom unterwegs sind. Ob es je eine Lösung geben wird, die zumindest in die Nähe von 99% kommt, steht komplett in den Sternen.
Es ist sicherlich nicht nur im ersten Moment beeindruckend, es ist aber vor allem einfach wahnsinnig faszinierend und dennoch beängstigend. Missbrauch vorprogrammiert. Die letzten 30 Prozent sind nur eine Frage der Zeit. Und gerade diese Fehler in den Videos machen es noch faszinierender, weil es die Videos eben als das entlarvt was es wirklich ist – nicht echt ! Das ist gruselig einfach. Denn es geht nicht rein um das Ergebnis sondern darum wie es entstanden ist: Durch einfache Texteingaben. Das ist erschreckend! Nichts davon was man da sieht ist echt ! Oder gibt es diese Gesichter irgendwo ? Hat die KI einfach im Netz nach einem Gesicht gesucht und es in das Video einkopiert und den Rest dazu addiert?
Sieht witzig aus.
Adobe Firefly lässt grüßen. 😀 Wurde im letzten Jahr bereits vorgestellt.
Noch mehr Demos: https://openai.com/sora
In dem Video mit der Dame sind noch mehr „Gehfehler“ drin – und in dem Western-Video auf der von dir verlinkten OpenAi-Site gibt es scheinbar ein Pferd, das nur aus einer Pferdehälfte besteht und es verschwindet auch jemand mitten im Film …
Filme ohne Schauspieler, Kameraleute, Beleuchter, etc. ?
Da wird sich die Werbeindustrie drauf stürzen.