Microsoft Lens: mittlerweile mit echter Texterkennung (OCR) für Dokumente
Wer so ein bisschen die Geschichte des Blogs verfolgt, der weiß, dass es ab und an auch um Dokumentenverwaltung, papierloses Büro und Hilfsmittel geht. Gerade durch das Thema Home-Office hat sich da für einige Menschen vieles geändert. Steh-Schreibtische erlebten einen Boom und generell Dinge, die ein Büro gemütlich machen können, wenn man denn den Raum hat. Bei den Papierlos-Geschichten bin ich seit Ewigkeiten Verfechter des Smartphones.
Dokument fotografieren und fertig. Aber – und das erwähne ich jedes Mal: Ein Foto ist nicht gleich ein Dokument und ein „PDF“ ist nicht immer nützlich. Denn so wirklich nützlich ist ein PDF doch nur, wenn es durchsuchbar ist, unabhängig von der Plattform. Apple hat es ganz cool gemacht, denn die aktuellen Systeme extrahieren automatisch Text aus Bildern oder PDF-Dokumenten ohne OCR und machen den Inhalt auffindbar. Nützt euch aber nichts auf anderen Plattformen. Und da ich nicht weiß, was in x Jahren ist, mache ich Dinge, die unabhängig funktionieren. Wie OCR eben. Möglichkeiten zur OCR-Nachbearbeitung gibt es viele und einige auch in unserem Blog.
Nun aber in der Würze der Kürze zum Plot. Ich habe viele Apps vorgestellt, die OCR auf eure Dokumente anwenden. Adobe Scan (Android / iOS) macht es, die haben mittlerweile aber ein doofes Abo-Modell. Scanner Pro von Readdle (iOS), eine absolut fantastische App, lässt euch auch in den wirklich sauren Abo-Apfel beißen. QuickScan für iOS ist kostenfrei (und meine bisherige Empfehlung), zieht euch aber nicht die Kanten glatt, wenn ihr schräg knipst). Gibt einige Apps – aber eine, die OCR recht still im letzten Herbst nachgerüstet hat.
Obwohl ich Changelog-Leser bin, ist mir das durch die Lappen gegangen. Microsoft Lens! Gibt’s für Android und iOS. Früher war es so, dass Microsoft Lens keine OCR machte – man machte nur den Text-Durchsuchungs-Voodoo, wenn man das Dokument im OneDrive speicherte. Nun testete ich mal wieder für meine Testberichte rum und tatsächlich – OCR wird auf Dokumente angewendet, die via Microsoft Lens aufgenommen wurden, auch wenn man diese nicht im OneDrive speichert.
Falls ihr also mal eine App für OCR und eure Dokumente sucht, schaut euch Microsoft Lens doch mal an. (Android / iOS).
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Wäre gut, wenn man die Dokumente ohne Umwege ins NAS kriegen würde.
So bleibe ich bei meinem Netzwerkscanner
Kann quickscan unter iOS. Kostenlos und lokales OCR 🙂
Nutze auch Quickscan und möchte die Scans gerne direkt auf der Diskstation ablegen. Kann mir einer sagen welche WebDav Adresse ich in Quickscan eintragen muss?
Schau mal hier:
https://kb.synology.com/de-de/DSM/tutorial/How_to_access_files_on_Synology_NAS_with_WebDAV#x_anchor_id7
Danke!
Hat funktioniert!
Es gibt einfach keine Scanner App wo ich festgelegte Ziele anlegen kann. Das fehlt. Tippe ich auf Ziel A, landet es automatisch in Ordner A. Tippe ich auf Ziel B, landet es automatisch in Ordner B etc. Ebenso muss dann auch unterschiedlich das Dokument benannt werden.
Immer nachträglich den Ordner raussuchen nervt einfach. Oder habe ich in deinen vielen Artikeln eine App übersehen?
Und immer erst Dokumente scannen zu müssen, bevor man sie digital ablegen kann, nervt noch am meisten … aber so ist das wohl, irgendwas ist immer. Allerdings bin ich der Meinung, dass eine Ordnerstruktur bei Nutzung sinnvoller Benennung, zudem verbunden mit OCR, auch entbehrlich ist. Aber natürlich hat da jeder auch sein eigenes System. 🙂
Dies mache ich mit Scanner Pro von Readdle schon seit Jahren, sofern ich Dich nicht falsch verstehe. Warum gibt es die Arbeitsabläufe bei Dir nicht in der App?
Was mir auf dem iPad und Android immer noch fehlt ist eine vernünftige App, die OCR auf bereits gespeicherte Dokumente anwenden kann. Nicht immer scannt man ja nur etwas ab, sondern zumindest ich bekomme durch den Job an der Uni noch wirklich oft Dokumente, die eben kein OCR durchlaufen haben, weil mit einem „richtigen“ Scanner gemacht. Jetzt könnte ich jedes Dokument auf pdf24 und Co hochladen, aber deutlich einfacher wäre es auf dem Gerät selbst. Alles was ich bisher gefunden hatte, war entweder ein wirklich teures Abo oder hat die Qualität des Scans deutlich verschlechtert.
Hat dafür jemand einen guten Vorschlag?
Bei iOS gibt es Quickscan – gratis und lokal. Wird von einem einzelnen entwickelt. Wirklich super
Hat erstklassige OCR Ergebnisse und lässt auch bestehende PDF mit ocr Versehen
Ist bekannt, ob OCR lokal auf dem Gerät gemacht wird ?
Es funktioniert auf jeden Fall auch ohne Netz.
Wahrscheinlich werden trotzdem Diagnosedaten gesammelt.
Coole Sache, muss ich mir ansehen.
Wenn nicht eh geplant: Werft einen Blick auf Docutain. Ich würde wetten, dass ich das auch in diesem Blog kennen gelernt habe. Macht auch kein echtes OCR aber die PDFs durchsuchbar. Das klappt gut, wenn man nach einzelnen Wörtern sucht. Textfluss erkennt die App leider nicht so gut.
Sieht nicht schlecht aus und macht schöne Ränder bzw. glättet das Dokument wohl. Leider bringt das alles nichts solange die PDF Volltextsuche auf iOS nicht funktioniert wenn das OCR PDF auf der iCloud gespeichert wird.
Auf Android kann die App leider OCR immer noch nur bei Speichern als Word Doc und nicht als PDF. Ansonsten super Scan-App.
Habe eben v. 16.0.14827.20174 für Android über den Play Store installiert.
Jedenfalls offline (von der Firewall geblockt) macht sie leider kein OCR.
Muss man das irgendwo extra einschalten oder müsste ich dafür meine Dokumente Microsoft anvertrauen (für mich ein NoGo)?
Bei mir genau gleich. Ich sehe keinen Unterschied zu früher. OCR ist – wie schon seit Ewigkeiten – nur mit Word Speicherung (und obligatorischer mit Anmeldung) möglich. Das einzige Neue, was ich sehe: es werden alternative Dateinamen vorgeschlagen. Aber das pdf ist danach definitiv nicht durchsuchbar. App ist auf dem neuesten Stand. Microsoft Lens nutze ich schon seit Ewigkeiten für Dokumente, die nicht OCR-fähig sein müssen, da die App – nach Prüfung zahlreicher auch hier im Blog vorgeschlagener Scanner Apps – am schnellsten und genauesten arbeitet.
Eine OFFLINE-OCR Funktion wäre noch das Tüpfelchen auf dem i bei dieser App…
„Muss man das irgendwo extra einschalten oder müsste ich dafür meine Dokumente Microsoft anvertrauen (für mich ein NoGo)?“
Wen vertrauste sonste hier Deine Dokumente an? Jetzt sage nicht Google, Apple oder sonst wer in der Ferne?
Ich schliesse da einen Kompromiss:
Zunächst vertraue ich sie meinem Smartphone (gerootet, firewalled) an, dann meinem Server (mit FDE) und das Ganze wird dann, doppelt verschlüsselt, auf 2 verschiedene Cloudanbieter gesynct („off site backup“).
Wie sehe ich denn ob die App OCR macht?
Ich speichere lokal und im Google PDF viewer ist der Text markier- und durchsuchbar.
Das müsste es doch sein, oder?
Auf Android (Xodo) und Windows (3 verschiedene Viewer) kann ich im Lens-PDF im Gegensatz zu anderen PDFs keinen Text markieren.
Vllt macht ja GPV ein OCR beim Öffnen? Probieren Sie mal, das PDF in Firefox/Fennec zu öffnen oder auf dem Desktop.
Hab’s erst auf dem PC versucht. Da muss ich aber erst noch einen Filter installieren. Aber in Edge konnte ich suchen.
Dann hab ich Xodo probiert und kann in dem lokalen PDF von Office Lens suchen.
Die Version der App ist dieselbe. Komisch.
Bei mir schon auch unter Windows, hab in Foxit Reader & PDF X-Change Editor sowie Chrome getestet.
Muss man hier Office Lens als Standalone-App nutzen oder ist diese Funktion auch in der Office-App unter „Scannen“ enthalten?
Kann denn jemand hier ne vernünftige Hardware empfehlen? Ich hab nen Scanner von brother aber ehrlich gesagt ist die mitgelieferte Software grauenhaft. Am besten wäre es für mich eine lösung zu haben die einscannt, OCR durchführt und dann z.B. auf Onedrive hochlädt. Dann fehlt nur noch ein DMS mit dem man das einfach nach Schlagworten durchsuchen kann.
Ich packe auf meiner DS einmal die Daten nach Eco DMS und einmal mit SynOCR in einen anderen Ordner als doppeltes Backup. Nutze auch einen Brother, scanne aber direkt aufs NAS
Klappt das bei deinem brother denn mit dem ocr und dem seiten drehen usw wenn du direkt aufs NAS scannst. Scannst du direkt com scanner oder über die Software
Die Ergebnisse sind auf jeden Fall besser als bei SwiftScan. Die Qualität der Scans und die Dateigröße ist viel besser.
Einzig der Komfort ist mit SwiftScan besser.
Hab mir das mal angeschaut: im Speichern-Dialog wird OCR nur beim Word-Dok. explizit erwähnt. Hab mal als docx und pdf exportiert. Im PDF kann ich jedenfalls auch Text auswählen und kopieren. Wird beim PDF also vermutlich nur nicht extra erwähnt da ja eigentlich eh fast logisch.
Allerdings bin ich mir nicht sicher – ‚PDF durchsuchbar‘ ist ungleich OCR; besteht der Unterschied nur darin dass bei OCR der Text auch kopierbar ist und bei ‚durchsuchbar‘ ist das PDF eben nur durchsuchbar?
utze auch Quickscan und möchte die Scans gerne direkt auf der Diskstation ablegen. Kann mir einer sagen welche WebDav Adresse ich in Quickscan eintragen muss?
Ich verwende die Kombination nextcloud App welche die OCR Pipeline für paperless-ng füllt (alles auf einem raspberry pi 4K). Erfüllt genau meine Anforderungen (ocr und suche)
Da kann ich Genius Scan empfehlen
In der + Version:
Durchsuchbare PDFs und ablegen dort wo man möchte
bspw. WebDAV fürs NAS
Eike hier Mitgründer von fileee.com – Du hattest uns ja vor Jahren auch schon in deinem Blog erwähnt. Ich tuh mich immer schwer uns selber zu promoten aber bei dieser Gelegenheit konnte ich nicht wiederstehen, einfach weil die Anforderungen die hier beschrieben werden genau so kostenlos von fileee abgedeckt werden. 🙂 Damit meine ich die OCR. Wir nutzen sogar mehrere OCR Engines auch für die free Nutzer. Und wer nicht mehr als 15 Dokumente jeden Monat scannt der soll gerne fileee lebenslang kostenlos nutzen. Absolut kein Problem.
Der entscheidende Vorteil bei fileee ist aber meiner Meinung nach die automatische Analyse. Also das extrahieren von Absender, Empfänger, Dokumenttyp, Rechnungsbetrag etc. – je nach Qualität des Scans funktioniert das schon richtig gut. Ich habe die letzten Monate auch an einer neuen Dokumentenaufbesserung gearbeitet, welche in meinen Tests besser ist als sämtliche Mitbewerber (auch als Office Lens, welches tatsächlich eine unglaublich schlechte Aufbesserung der Dokumente macht, was mich persönlich doch sehr gewundert hat). Diese geht im nächsten Monat mit dem nächsten Update online. Ich bin da schon sehr gespannt auf das Feedback der Nutzer.
Ich freue mich übrigens das es hier so viele Nutzer gibt, die das Thema spannend finden. Gibt leider viel zu wenig Blogs, Communities etc. die sich damit beschäftigen. Ich kenne eigentlich sonst nur die paperless Pioneers.
Schon beeindruckend Eike, was ihr da auf die Beine gestellt habt.
Aber Eure Lösung hat einige Probleme by design, weshalb es für mich nicht in Frage kommt: Cloudzwang, Abozwang, proprietäre Software. Lokal ohne Abo und als PDF mit Metadaten im lokalen Dateisystem gespeichert und ihr habt mich.
Ich möchte nicht, dass meine sensiblen Daten irgendwo in einer Cloud verarbeitet oder gespeichert werden. Da helfen auch keine Datenschutzversprechungen.
Sieht man darüber hinweg: Die Datenhaltung ist proprietär. Ja, man kann bei euch die Dokumente auch als PDF herunterladen. Aber nur als Gesamtpaket. Über die Metadaten sprechen wir nicht.
Einigermaßen zukunftssicher ist nur ein Archiv, auf das man ohne proprietäre Software zugreifen kann. Also im Dateisystem. Möglichst einfach. Mit den Metadaten in den Dokumenten, nicht im Dateisystem. Dann funktioniert so ein Archiv auch plattformübergreifende und über lange Zeit.
Das Grundproblem: Passiert bei euch etwas, komm ich nicht mehr an meine Daten heran. Zu viele Dienste haben zum Teil schon so kurzfristig das zeitliche gesegnet. Ach ja, auch nicht, wenn ich nicht ins Internet kann. Blöd.
Hey Maxx, ich kann das absolut nachvollziehen! Ich habe selber meinen Raspi mit Nextcloud und eigentlich alle meine Daten lokal. Leider gibt es zumindest bei fileee ein paar Punkte die rein von der Funktionalität gegen lokales hosten sprechen. Ich würde es wirklich gerne aber! Technisch ist das ein Mamutprojekt. Firmware updates, sync fehler, verteiltes lernen der neuronalen netzwerken ermöglichen, etc….
Einzig das mit dem abozwang muss ich doch leider relativieren. Das ist ja genau wofür wir Gründer uns eingesetzt haben im Gegensatz zu anderen Diensten, das man es eben lebenslang kostenlos nutzen kann. Und zwar ohne große Einschränkungen. Es gibt auch keine Werbung, nichts. Wir glauben einfach das langfristig glückliche Kunden freiwillig ein Premium Abonement abschließen. Da soll niemand gezwungen werden.
Was sind das denn für Punkte, die gegen ein lokales hosten sprechen? Vielleicht magst Du uns dazu ein wenig Input geben. Wenn die Prozesse lokal stattfinden, gibts doch auch keine Sync-Fehler. Oder? Vielleicht ist es gar nicht nötig, verteiltes Lernen zu nutzen. Dokumente sind doch zum großen Teil gleichartig aufgebaut. Da reicht es, die Erkennung zentral zu trainieren, entsprechende Algorithmen zu entwickeln und „nur“ diese auszurollen (machen andere Produkte auch). Wer mag, kann seine Dokumente gerne für den Lernprozess zur Verfügung stellen (gibt ja nicht nur so Menschen wie mich) oder vielleicht auch den ganzen Workflow in der Cloud lassen möchten (damit muss man sich ja dann um quasi nix kümmern). So kann man das Beste aus beiden Welten zusammenführen. Es ist eine Frage des Mindsets: Zu (fast) jedem Problem lässt sich eine Lösung finden. Ja, ich weiß, es ist auch ein monetäres bzw. insgesamt ein Ressourcenthema.
Abozwang: Ja, das ist in der Tat etwas hart formuliert. Auch wenn es nichts kostet, so bleibt es letztlich ein Abo. Man kann mit unter 15 Dokumenten ohne Abo den Dienst kostenlos nutzen. Doch ich komme schon privat nicht mit 15 Dokumenten monatlich aus. Wir haben einen höheren Durchsatz und ich möchte auch nicht entscheiden müssen, ob ich etwas scannen möchte oder nicht. Da haben wir über den Bestand noch gar nicht gesprochen. Ja, kann man alles dazubuchen. Aber schwups sind wir im Abomodell. Bei lebenslang musste ich schmunzeln.
Mir gehts bei dem Modell auch gar nicht um den Preis (egal in welcher Währung, ob Euros oder Daten). Ich bin aus einer Generation, in der man sich die Dinge kauft. Was man sich nicht leisten kann, kann man nicht kaufen. Gute Leistung und guter Service haben ihren Preis. Es gibt nichts zum Nulltarif. What you pay is what you get. Ich kann mir andere Systeme, die es am Markt gibt, schlichtweg nicht leisten, also brauche ich einen alternativen Workflow. Wenn Ihr morgen Eure Kosten nicht mehr decken könnt, oder Ihr Opfer eines Angriffs werdet, oder oder oder, besteht ein reelles Risiko, nicht mehr an die Daten heranzukommen und darüber hinaus neue Workflows aufsetzen zu müssen, weil ggf. das Leben von fileee zu Ende ist (damit will ich nicht sagen, dass ich nicht an Euch glaube!). Ich verteufle Abos nicht, bitte nicht falsch verstehen, im aktuellen Geschäftsmodell bietet sich das by design an und Ihr braucht das in gewisser Weise auch bzw. war insbesondere in der Investitionsphase der Gründung erforderlich. Wenn nur Abos angeboten werden, bin ich leider raus.
Vielleicht verwechsle ich da etwas, aber ich bin der Meinung, dass Google-Drive doch so eine Funktion schon seit Ewigkeiten hat
Wer sowieso OneDrive nutzt und die App installiert hat, kann das interne OfficeLens in der App nutzen (blaues Kamera-Icon rechts unten auf dem Start-Bildschirm). Ich weiß nicht, ob die Standalone-App noch andere Funktionen hat, aber die integrierte reicht mir völlig. Vor allem hat man den Scan gleich auf OneDrive gespeichert.
Ich habe manchmal den Fall, dass ich Text aus Dokumenten direkt weiter bearbeiten möchte ohne den Weg über ein PDF zu nehmen. Für genau diesen Einsatzzweck habe ich Scan2Clipboard (iOS) entwickelt. Dank der handoff Funktion von Apple klappt das problemlos. Text fotografieren und cmd-v am Mac – Text ist direkt eingefügt.