Google DeepMind stellt Genie 3 vor: KI generiert interaktive 3D-Welten in Echtzeit
Google DeepMind hat heute mit Genie 3 ein neues KI-Modell vorgestellt, das in der Lage ist, auf Basis von Textbeschreibungen interaktive 3D-Welten zu generieren. Die Welten lassen sich in Echtzeit mit 24 Bildern pro Sekunde erkunden und bleiben mehrere Minuten lang konsistent, bei einer Auflösung von 720p. Schaut man sich die Demos an, dann ist das technisch durchaus beeindruckend.
Das System baut auf den Vorgängern Genie 1 und 2 auf und erweitert deren Fähigkeiten laut Google deutlich. Während die früheren Versionen bereits Umgebungen für KI-Agenten erzeugen konnten, ermöglicht Genie 3 nun erstmals die Interaktion in Echtzeit bei verbesserter Konsistenz und Realitätsnähe.
Die generierten Welten umfassen ein breites Spektrum: von naturgetreuen Landschaften mit physikalisch korrektem Verhalten von Wasser, Licht und Umgebung bis hin zu fantastischen Szenarien. Das System kann sowohl reale Orte nachbilden als auch fiktive Welten erschaffen.
Eine technische Neuerung ist die oben erwähnt Fähigkeit zur Konsistenz über längere Zeiträume. Wenn ein Nutzer nach einer Minute an einen bereits besuchten Ort zurückkehrt, greift das System auf die gespeicherten Informationen zurück und stellt die Umgebung unverändert dar.
Neben der Navigation können auch Ereignisse per Text ausgelöst werden, etwa Wetteränderungen oder das Hinzufügen neuer Objekte. Diese Funktion erweitert die Möglichkeiten für das Training von KI-Agenten in unerwarteten Situationen.
Die Technologie hat allerdings auch Grenzen: Der Aktionsradius ist eingeschränkt, die Interaktion mehrerer Agenten ist komplex und reale Orte lassen sich nicht mit absoluter geografischer Genauigkeit nachbilden. Auch die Darstellung von Text und die Interaktionsdauer von wenigen Minuten sind noch limitiert.
Google DeepMind startet zunächst mit einer beschränkten Forschungsvorschau für ausgewählte Wissenschaftler und Entwickler. Zukünftig soll Genie 3 auch für weitere Tester zugänglich gemacht werden. Mögliche Anwendungsgebiete sieht das Unternehmen in Bildung, Training und der Entwicklung autonomer Systeme.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Solange sich die automatische deutsche Synchronisation so anhört, wie sie es im Video oben tut, kann die KI von Google nicht sooo weit sein. Zum Thema selbst… solche Welten klicke ich aber auch relativ schnell selbst zusammen heutzutage. Die Einzigartigen Details, die dann hinzukommen müssen, machen es dann aus.
genau!
what?
Müsste man mit der Apple Vision kombinieren. Da kommen einem direkt Zweifel, ob wir nicht doch vielleicht in der Matrix leben.
Holodeck, ich komme
das ist einfach krank. Alle paar Monate kommen immer krassere Sachen.
Wenn man sich überlegt wie stark sowas das Training von KI verbessert und beschleunigt… absolut irre was noch alles kommen wird, in atemberaubender Geschwindigkeit. Es bleibt spannend 🙂
Mir macht neben den üblichen Risiken, wie dem Verschwimmen von Realität und Fiktion bzw. Fake und für Künstler und Kreative aller Art vor allem der enorme Energie- und Ressourcenhunger Sorge.
Hat jemand Quellen dazu, wie sich das Ganze auswirken wird?
Klar kann eine KI-Zusammenfassung viel Zeit und eine Menge „normale“ Suchanfragen ersetzen, aber es braucht in der Regel schon einige Prompts bis man ein geeignetes Ergebnis bekommt.