Google: Neue API für Handschrifterkennung arbeitet offline mittels maschinellen Lernens
Google hat mit dem ML Kit einige API-Lösungen zum Machine Learning direkt auf dem Endgerät parat. Neben der Möglichkeit zur Texterkennung, dem Beschriften von Bildern sowie der Erkennung und dem Tracking von Objekten unterstützt man hier im „visuellen Bereich“ auch das Scannen von Barcodes und das Erkennen von Gesichtern. Nun fügt man auch eine entsprechende Möglichkeit zur Handschrifterkennung ein.
Die Erkennung für „Digital Ink“ soll nach Googles Aussagen als API sowohl unter Android als auch für iOS zur Verfügung stehen. Insbesondere sollen Geräte profitieren, welche vorrangig mit Stift oder über Touch-Interaktionen bedient werden.
Verarbeitet werden für die „Handschrifterkennung“ weder Text noch Bild als Input, sondern man schaut sich mittels Machine Learning die Striche des Endnutzers auf dem Display an um zu erkennen was geschrieben aber auch gezeichnet wird. Die Technologie der Handschrifterkennung als solche kommt beispielsweise bereits in Gboard sowie den Experimenten Quick Draw! und AutoDraw zum Einsatz.
In der neuen API hat man jedoch einige Verbesserungen vorgenommen: Die API kann auch in Apps verbaut werden, die Text oder Zahlen über den Finger oder Stift als Input aufnehmen. Ebenso lässt sich den Entwicklern auch die einfachere Möglichkeit an die Hand geben, um Notizen zu transkribieren und damit in Echtzeit durchsuchbar zu machen.
Mit der neuen API unterstützt man mehr als 300 Sprachen, 25 Schriftsysteme und deckt damit die wichtigsten lateinischen Sprachen aber freilich auch Chinesisch, Japanisch, Koreanisch, etc. ab. Erkennen und klassifizieren (z.B. in die Kategorien Kreis, Quadrat, glückliches Gesicht usw.) lassen sich neben Formen / Zeichnungen auch Emojis.
Nette Geschichte: Die API läuft auf dem Gerät und erfordert damit keinerlei Netzwerkverbindung. Ein oder mehrere Modelle müssen zur Erkennung dafür aber natürlich vorab heruntergeladen wird, diese sind in etwa 20 MB groß. Da man auf die Geräte selbst angewiesen ist, hängt die Arbeitsgeschwindigkeit natürlich auch von der verfügbaren Geräteleistung an. Google gibt die Erkennung einer Textzeile auf einem „typischen mobilen Gerät“ mit 100 ms an.
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.
Du willst nichts verpassen?
Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.