Dall·E von OpenAI kann automatisch zu Texten Bilder erstellen
OpenAI hat ein neuronales Netzwerk namens Dall·E vorgestellt, das automatisch zu Texteingaben Bilder generieren kann. Der Name leitet sich im Übrigen aus einem Mash-Up aus dem Künstler Salvador Dalí und Pixars Film „Wall·E“ ab. Dabei kann die KI aus Beschreibungen recht amüsante Bilder erstellen. Dabei ist es auch möglich, normalerweise nicht direkt verknüpfte Inhalte zu kombinieren.
Beispielsweise kann eingegeben werden „eine Zeichnung eines Baby-Fuchses mit einem Schnurrbart, der einen Latte trinkt“ und es kommen Ergebnisse dabei heraus:
Laut OpenAI sei das Besondere an der Anwendung, dass sie Aktivitäten und auch Accessoires bzw. Kleidungsstücke Tieren zuordnen könne, die normalerweise Menschen vorbehalten bleiben. Dieser Anthropomorphismus ist für neuronale Netzwerke eine eher komplexe und schwierige Aufgabe. Wie das alles technisch genau funktioniert, könnt ihr in diesem Beitrag von OpenAI nachlesen. Da habt ihr auch die Gelegenheit ein paar Kombinationen auszuprobieren, indem ihr die Variablen selbst anpasst. Z. B. könnt ihr meinem Fuchs von oben auch andere Accessoires in die Hand drücken oder ein anderes Tier auswählen.
Für Dall·E ist die Herausforderung dabei die richtigen Variablen zu verknüpfen, insbesondere bei längeren Eingaben wie „ein Igel, der einen roten Hut, gelbe Handschuhe, ein blaues T-Shirt und grüne Hosen trägt“. Hier muss nicht nur jedes einzelne Kleidungsstück korrekt auf die jeweiligen Körperteile des Igels übertragen werden, sondern auch die Variablen müssen passend geordnet werden – also etwa die Farbe Rot eben den Handschuhen zugewiesen werden und nicht etwa der Hose. Je mehr Variablen hier verwendet werden, desto höher wird die Fehleranfälligkeit. Auch versteht Dall·E bei Anpassungen der Formulierungen schnell mehr Dinge falsch. Da gibt es also noch viel Entwicklungspotenzial.
Auch gibt sich Dall·E teilweise noch Stereotypen hin. Denn das neuronale Netzwerk versteht zwar Konzepte wie Länder und Zeit, ordnet dann aber etwa einer Anfrage wie „food of Germany“ eher Klischees zu. Auch das ist also ein Aspekt, bei dem es noch viel Arbeit gibt, um die realistische Vielfalt abzubilden. Dennoch insgesamt eine spannende Sache – unter dem oben verlinkten Beitrag könnt ihr ja auch selbst etwas experimentieren und Ergebnisse abrufen.
das wird die welt verändern. frage mich nur wie das mit dem urheberrecht aussieht von diesen generierten dingen?
Wo kann ich das ausprobieren? Terminator playing guitar solo on a Flying V while kicking a T-Rex (with a cowboy hat on) in the balls. Wenn er das schafft bin ich beeindruckt.
Komplett eigene Sätze gehen da leider nicht. man kann nur aus den vorausgewählten auswählen und mit klick auf die unterstrichenen wörter diese ändern aus der auswahlliste.