Google Research Labs schafft Durchbruch bei der Erforschung von maschineller Bildbeschreibung

19. November 2014 Kategorie: Google, Internet, geschrieben von:

Das Google Research Lab hat bekannt gegeben, dass man einen neuen Durchbruch in der automatisierten, computergenerierten Bildbeschreibung erlangt hat. Mithilfe jüngster technischer Fortschritte hat man ein maschinelles Lernsystem entwickelt, dass den Inhalt von Bildern interpretiert und eine passgenaue Bildbeschreibung ausspuckt.

Screen Shot 2014-11-17 at 2.11.11 PM

Während das menschliche Gehirn ohne weiteres in der Lage ist, den Inhalt eines Bildes zu analysieren und eine treffende Bildinhaltsangabe erstellen kann, ist dies bei Computern denkbar schwieriger. Hierfür hat Google hat sich die jüngsten Fortschritte in der maschinellen Objekterkennung, Klassifizierung und Kategorisierung als Grundlage für den neuesten Forschungsansatz herangezogen.

Bisher gingen die Versuche dahin, verschiedene Bilderkennungsalgorithmen und natürlich Sprachverarbeitungsprozesse nebeneinander laufen zu lassen, um eine Bildbeschreibung zu erhalten. Doch Google versucht hier diese beiden Prozesse in ein einzelnes Verarbeitungssystem zu packen, sodass beispielsweise ein soeben geschossenes Bild direkt mit einer menschlich verständlichen Bild-Inhaltsbeschreibung versehen wird. Fotografiert Ihr also eine zwei Pizzas, die auf den Ofen zum abkühlen gestellt wurden, so interpretiert der Algorithmus den Inhalt des Bildes und gibt „Two pizzas sitting on top of a stove top oven“ als Bildbeschreibung aus.

image00

Dafür nutzt Google die jüngsten Fortschritte in der Maschinen-Übersetzung, bei der ein „Recurrent Neural Network (RNN)“ beispielsweise einen französischen Satz in eine Vektordarstellung umwandelt, während ein zweites RNN diese Vektordarstellung nutzt, um einen Zielsatz auf deutsch zu generieren. Dann wird das erste RNN und die eingegebenen Worte durch ein „deep Convolutionals Neural Network (CNN)“ oder zu deutsch „faltendes neurales Netzwerk“ ersetzt und auf eine Bild-Objekt-Klassifizierung trainiert.

In der Regel wird die letzte Schicht des CNN genutzt, um mit einer mathematischen Formel (Softmax) die Wahrscheinlichkeit zu erkennen, ob sich weitere Objekte im Bild befinden und welcher Klassifizierung diese angehören. Diese letzte Schicht wird in Googles Methodik entfernt in ein RNN umgewandelt, dass Sätze produziert. Wenn das gesamte System auf diesen Ablauf trainiert ist, erhöht sich die Wahrscheinlichkeit, dass es auch bei anderen Bildern eine ähnlich hohe Genauigkeit aufweist, wie in den Trainingsszenarios.

image01

Google hat nach eigenen Angaben mit diesem System verschiedenste öffentlichen Datensätze durchlaufen lassen, wie zum Beispiel Pascal, Flickr8k, Flickr30k und SBU. Das Bild unten zeigt, wie genau Googles Erkennungssystem tatsächlich ist und dass es verständliche Sätze formulieren kann.

Screen Shot 2014-11-17 at 2.11.11 PM

Googles Forschung an der maschinellen Erstellung von Bildbeschreibung soll Euch natürlich nicht nur die Bildbeschreibung für Eure Instagram-Fotos vereinfachen, sondern insbesondere hilfreich für Menschen mit eingeschränktem Sehvermögen sein.


Du entscheidest mit! Wir suchen das Smartphone des Jahres 2017! Jetzt abstimmen!

 

Über den Autor:

Nerdlicht in einer dieser hippen Startup-Städte vor Anker. Macht was mit Medien…

Auch bei den üblichen Kandidaten des sozialen Interwebs auffindbar: Google+, Twitter, Xing,
LinkedIn und
Instagram.
PayPal-Kaffeespende an den Autor.

Pascal hat bereits 940 Artikel geschrieben.