Apple veröffentlicht Demo seines 4M-KI-Modells
Apple hat in Zusammenarbeit mit der Eidgenössischen Technischen Hochschule Lausanne (EPFL) eine öffentliche Demo seines 4M-KI-Modells auf Hugging Face veröffentlicht. Das ist ungewöhnlich für das Unternehmen, das sonst eher zurückhaltend mit solchen Sachen umgeht.
Das „Massively Multimodal Masked Modeling“ (4M) Modell zeichnet sich besonders im multimodalen Lernen durch Maskierung und Rekonstruktion von Daten aus. Es trainiert einen Transformer-Encoder-Decoder auf z. B. Text, Bilder, geometrische und semantische Daten sowie neuronale Netzwerk-Feature-Maps. Durch das Maskieren zufälliger Tokens und deren Rekonstruktion wird das Modell gezwungen, die zugrunde liegenden Strukturen und Beziehungen zu lernen. Dadurch können mehrere Aufgaben und Modalitäten gleichzeitig bearbeitet werden und neue Modalitäten schnell eingebaut werden.
In der Demo ist der Fokus primär auf die Bildverarbeitung und daraus resultierende Normal-Maps und 3D-Maps. Auch eine Textbeschreibung des Bildes, Metadaten-Generierung etc. werden ausgegeben.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Finde ich gut, dass Apple mal was anders macht