PDF oder Bilder: OCR-Texterkennung nachträglich

7. Juni 2016 Kategorie: Software & Co, geschrieben von: caschy

pdf logoIch schrieb in diesem Beitrag etwas über mein Büro ohne Papier. Wie ich mit Papier umgehe, wie ich es sortiere und einiges mehr. Kein Hexenwerk, komplett ohne Cloud oder Software für das Dokumenten-Management. Ein Smartphone oder ein Scanner reicht schon. Nun ist es wie folgt, dass vielleicht der eine oder andere noch alte Dokumente hat, die vielleicht nicht durchsuchbar sind. Nicht alles, was die Dateiendung PDF hat, ist auch ein durchsuchbares PDF – und viele Scanner-Apps beherrschen kein OCR, sondern machen nur ein Bild oder ein PDF, ohne die enthaltenen Informationen zu extrahieren. So hat man vielleicht alles schön digital, findet aber unter Umständen doch nichts.

Was also tun, um nachträglich PDFs durchsuchbar zu machen – OCR (optical character recognition) also auf Bilder und PDFs nachträglich anzuwenden? Darauf soll dieser Beitrag kurz eingehen. Vorab sei angemerkt: Viele Wege führen nach Rom, viele Scanner liefern Software zum nachträglichen Bearbeiten mit, ich gehe hier nur auf einige wenige Lösungen ein, die Android, iOS, Windows und OS X betreffen.

Scanbot:

In meinem Beitrag erwähnte ich, dass ich Scanbot unter iOS und Android nutze. Die App erstellt nicht nur Scans und lässt die Zeichenerkennung über diese laufen, man kann auch nachträglich OCR anwenden. Das lässt sich beispielsweise mit JPG-Dateien machen, also einfachen Fotos von Dokumenten. Einfach die Galerie innerhalb von Scanbot nutzen, betreffendes Dokument durch Scanbot jagen – fertig. Das PDF ist nun durchsuchbar und kann lokal oder irgendwo gespeichert werden. Wer Scanbot gerne nutzt und es für die Lösung Nummer 1 hält, der kann ja PDFs ohne OCR schnell per Batch nach JPG umwandeln und dann Stück für Stück mit OCR versehen. Kann bei großen Mengen von Dokumenten am Smartphone oder Tablet aber aufwendig sein.

Google Drive:

Seit 2013 kann der Google Drive mit OCR umgehen, seit 2015 mit über 200 Sprachen. Wer reine Dokumente ohne großartige Grafiken umwandeln möchte, kann auch den Google Drive für Extrahieren des Textes nutzen. Dokumente in den Google Drive laden und über das Kontextmenü mit Google Docs öffnen. Heraus kommt eine neue Datei mit extrahiertem Text. Übrigens: Wer eh den Google Drive für seine Dokumente nutzt, der kann auch die offizielle App nutzen, diese sorgt auch für eine Texterkennung.

Microsoft Office Lens:

Gerade für OneNote-Nutzer interessant: die kostenlose Office Lens-Software, die es auch für Android und iOS gibt. Kann nicht nur Handschrift mittels OCR in durchsuchbaren Text umwandeln, sondern auch nachträglich Dateien öffnen und diese bezüglich ihres Textes erkennen und das durchsuchbare Endresultat exportieren.

PDF OCR X für Windows und OS X:

Ein in der kostenlosen Community-Version beschnittenes, aber brauchbares Programm, welches Christian vorschlägt. Beschnitten deshalb, weil nur Einzelseiten unterstützt werden. Wer PDF-Dateien mit mehr als einer Seite hat, muss diese einzeln „OCRen“. Das kostenlose Umwandeln kann in ein Textdokument oder in ein durchsuchbares PDF erfolgen.

pdf

Textfee für Android: Die App stellte ich bereits in einem gesonderten Beitrag vor. Mit ihr könnt ihr nicht nur Dokumente abfotografieren und OCRen, auch das nachträgliche Extrahieren von Text ist aus Bildern oder PDF-Dokumenten möglich. Diese neu erstellten Dokumente lassen sich ganz normal für euer Archiv speichern.

FreeOCR für Windows. Scannt und erstellt PDF-Dateien kostenlos, kann aber auch nachträglich Dokumente OCRen. Nachteil: nur reines Extrahieren in Text, erstellt kein neues PDF.

Dann gibt es noch Scan2PDF „Freeware OCR Scanner Software“. Zu bedenken: Nur für den nicht kommerziellen Einsatz kostenlos. Scannt auch Dokumente mit OCR, wandelt aber auch nachträglich um aus PDF und Bild. Nachteile der kostenlosen Version? Werbung bei jedem Start und OCRen geht nur bei der ersten Seite eines Dokumentes.

Wie erwähnt: Viele Wege führen nach Rom und auch in diesem Bereich findet man zahlreiche Lösungen von günstig bis teuer. Selbst Mullu Mullu-Scanner bringen oftmals Software mit, die OCR beherrscht und wer ein DMS einsetzt, bekommt auch hier mittlerweile Module, die automatisiert den Text in die Datenbank bringen.


 

Anzeige: Der neue Karriereservice von Caschys Blog in Kooperation mit Instaffo. Lass dich von Unternehmen finden. Jetzt kostenfrei anmelden!

Über den Autor: caschy

Hallo, ich bin Carsten! Daddy von Max, Dortmunder im Norden, BVB-Getaufter, Gerne-Griller und Gründer dieses Blogs. Auch zu finden bei Twitter, Google+, Facebook, XING, Linkedin, Instagram und YouTube. Persönliches Blog. PayPal-Kaffeespende. Mail: carsten@caschys.blog

Carsten hat bereits 23555 Artikel geschrieben.