Facebook verbessert seine automatischen Foto-Beschreibungen mit KI-Unterstützung
Facebook ist ein soziales Netzwerk, das möglichst viele User für sich gewinnen will. Klingt simpel und naheliegend, doch das schließt auch Nutzergruppen ein, an die man auf den ersten Blick vielleicht nicht so denkt – etwa Blinde und Menschen mit Sehschwächen. Für jene bietet Facebook schon seit 2016 zu Fotos auch automatisch generierte Bildbeschreibungen an. Letztere habe man nun dank KI-Unterstützung verbessern können.
Laut Facebook selbst sei das Problem, dass viele Fotos bei Facebook ohne einen alternativen Text gepostet würden. Deswegen generiere man seit 2016 eben selbst automatische, alternative Texte für seine User. Dafür kommt eine Objekterkennung zum Einsatz. Die automatischen, alternativen Texte (AAT) gehen nun in die nächste Generation. So habe man die Verlässlichkeit stark verbessert und könne mehr Kategorien/ Objekte korrekt verarbeiten. Außerdem enthalten die Beschreibungen nun mehr Details.
Identifizieren könne man dabei Aktivitäten, Orte und Sehenswürdigkeiten, Tiere und mehr. Etwa könnte eine automatisch generierte Bildbeschreibung wie „Möglicherweise ein Selfie von zwei Menschen, draußen, vor dem Turm von Pisa“ dabei herauskommen. Darunter kann man sich also schon etwas vorstellen. Ein Durchbruch sei, dass man nicht nur die Anzahl von Menschen erkennen könne, sondern auch die Positionen beschreibe. Etwa könne man bei einigen Bildern angeben, wie die Menschen positioniert seien. Bei Objekten sei es zudem möglich, die Verhältnisse zu erklären: Zeige ein Foto etwa einen großen Berg und es sei auch ein kleines Haus erkennbar, können beide Objekte erkannt werden – gleichzeitig werde aber verarbeitet, dass der Berg hier das Hauptmotiv sei.
Zusammengenommen kann man Menschen mit Sehschwächen also deutlich bessere Eindrücke von dem vermitteln, was die eingestellten Fotos zeigen. Die Algorithmen im Hintergrund, welche die Beschreibungen generieren, wurden dabei im Übrigen mit öffentlichen Bildern trainiert, die sich bei Instagram finden und mit Hashtags versehen sind. Natürlich wurde da aber manuell an den Feineinstellungen gewerkelt. Über 1.2000 Kategorien könne man mittlerweile erkennen. Dabei ergaben sich durchaus auch Probleme, die anfangs nicht klar waren.
Beispielsweise ist es wichtig mit korrekten Adjektiven zu arbeiten. Facebook fand heraus, dass Beschreibungen mit dem Adjektiv „groß“ die Nutzer leicht in die Irre führen konnten. Denn in einer Nahaufnahme kann etwa selbst ein Chihuahua sonst ein „großer Hund“ sein. Da nahm man also viele Anpassungen vor, um möglichst klare aber dennoch detaillierte Beschreibungen liefern zu können.
Aktuell setzt Facebook AAT, also die automatisch generierten Bildbeschreibungen, für Fotos im News Feed, auf Profilen und in Gruppen ein. Das funktioniert auch, wenn ein Foto in der Detail-Ansicht geöffnet ist. Auf Instagram ist AAT für Fotos im Feed, im Explore-Bereich und auf Profilen verfügbar. Die Texte können dann durch Screen Reader erfasst und vorgelesen werden.
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.
Du willst nichts verpassen?
Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.