OpenAI: GPT-4o bekommt verbesserte integrierte Bilderzeugung spendiert
Bei OpenAI geht es Schlag auf Schlag weiter. Das erst kürzlich vorgestellte und ziemlich fähige Modell GPT-4o, das ja schon Text, Code, Audio und Bilder verstehen kann, lernt jetzt eine weitere wichtige Fähigkeit: das bessere Generieren von Bildern. Das Ganze wird direkt in die ChatGPT-Oberfläche integriert und basiert auf der bekannten DALL·E 3-Technologie. Nennt sich Bilder in ChatGPT. Was heißt das konkret für Nutzer? OpenAI verspricht einige Verbesserungen gegenüber dem bisherigen, eher separaten DALL·E-Zugang:
Direkt im Chat: Ihr könnt Bilder direkt im Gespräch mit GPT-4o erstellen lassen. Einfach beschreiben, was ihr sehen wollt.
Iteratives Arbeiten: Das ist spannend: Ihr könnt auf einem generierten Bild aufbauen. Stellt euch vor, ihr lasst ein Bild erstellen und sagt dann im nächsten Schritt „Mach den Himmel dunkler“ oder „Füge einen roten Ballon hinzu“. Das soll die Bildbearbeitung und -anpassung deutlich intuitiver machen.
Besseres Verständnis & Text: GPT-4o soll die Nuancen in euren Text-Prompts besser verstehen und auch Text innerhalb von Bildern (z.B. Schriftzüge, Schilder) zuverlässiger darstellen können.
Konsistente Charaktere/Stile: Wer versucht hat, dieselbe Figur in verschiedenen Szenen zu generieren, kennt die Herausforderung. Auch hier verspricht OpenAI Verbesserungen bei der Konsistenz über mehrere Bilder hinweg.
Unter der Haube steckt, wie erwähnt, die Power von DALL·E 3, aber eben enger verzahnt mit den Konversationsfähigkeiten von GPT-4o.
OpenAI betont auch die Sicherheitsmaßnahmen. Schädliche Inhalte sollen wie üblich blockiert werden. Wichtig ist auch die Kennzeichnung: Generierte Bilder sollen C2PA-Metadaten enthalten, die sie als KI-generiert ausweisen (Stichwort Provenienz). Auch das Generieren von Bildern bekannter öffentlicher Personen soll eingeschränkt sein, um Missbrauch vorzubeugen.
Wer bekommt es und wann?
Wie so oft bei OpenAI startet der Rollout langsam. Zuerst darf eine „kleine Gruppe“ von Nutzern mit ChatGPT Plus und Enterprise die neue Funktion testen. Wann genau der breite Rollout für alle Plus-Nutzer (und vielleicht irgendwann auch Free-Nutzer?) erfolgt, sagt OpenAI noch nicht, spricht aber von „bald“. Man muss also die Augen offen halten.
Das ist definitiv ein logischer Schritt, die verschiedenen KI-Modalitäten noch enger zusammenzuführen. Bilder direkt im Chat zu generieren und anzupassen, klingt auf dem Papier sehr praktisch. Wer die offizielle Ankündigung im Detail nachlesen möchte, findet sie hier im Blog von OpenAI. Da gibt es auch noch einen Schwung von wirklich krassen Beispielbildern.
- WARUM IPAD − Das 11" iPad ist jetzt leistungsstärker und vielseitiger als je zuvor mit dem...
- WARUM IPAD AIR − Das iPad Air ist leistungsstark, vielseitig und in zwei Größen erhältlich. Es kommt...
- LEICHTGESCHWINDIGKEIT – Das MacBook Air mit dem M4 Chip macht Arbeit und Gaming superschnell. Mit Apple...
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Verstehe ich jetzt nicht. Bilder direkt im Chat erzeugen lassen, das geht bei ChatGPT doch schon eine Ewigkeit. Auch in der EU.
Ja, und das iterative Bildgenerieren ging doch auch schon. Verstehe auch gerade nicht was nun neu sein soll?!
Am besten mal den Artikel von openai durchlesen, da gibt es gute Beispiele.
ich hatte schon oft den Fall das ich in einem generierten Bild nur ein kleine Verbesserung haben wollte aber das Bild danach komplett anders aussah. Das soll jetzt wohl bzw. zukünftig behoben sein.
oder wenn man einen bestimmten Satz im Bild haben will war es immer so das der nicht korrekt dargestellt wurde, was jetzt auch besser sein soll
Das basierte alles auf DALL-E wohingegen im neuen GPT-4o nun die Bildgenerierung nativ eingebaut / gelernt ist und nicht durch ein separates Modell bereitgestellt wird. DALL-E ist veraltet und gibt’s nur noch für „Liebhaber“, das neue 40o kann das dann alles weitaus besser, jedenfalls wenn man den Beispielen von OpenAI glauben darf.
Anyway, ich habe das Gefühl, dass sobald ein Konkurrent etwas Neues anpreist, dann direkt etwas von OpenAI hinterher geschossen wird, vermutlich alles schon vorbereitet…
Dall-E wird hoffentlich auch bald mal geupdated. Andere Generatoren erzielen oftmals bessere Resultate.
Anonsten: Ja, verstehe die News auch nicht so ganz?
Dall-E ist in soweit tot und nur noch per eigenem GPT erreichbar sein. So ähnlich wie das originale GPT4.
https://www.youtube.com/watch?v=2f3K43FHRKo einfach da reinschauen.