PDF oder Bilder: OCR-Texterkennung nachträglich

pdf logoIch schrieb in diesem Beitrag etwas über mein Büro ohne Papier. Wie ich mit Papier umgehe, wie ich es sortiere und einiges mehr. Kein Hexenwerk, komplett ohne Cloud oder Software für das Dokumenten-Management. Ein Smartphone oder ein Scanner reicht schon. Nun ist es wie folgt, dass vielleicht der eine oder andere noch alte Dokumente hat, die vielleicht nicht durchsuchbar sind. Nicht alles, was die Dateiendung PDF hat, ist auch ein durchsuchbares PDF – und viele Scanner-Apps beherrschen kein OCR, sondern machen nur ein Bild oder ein PDF, ohne die enthaltenen Informationen zu extrahieren. So hat man vielleicht alles schön digital, findet aber unter Umständen doch nichts.

Was also tun, um nachträglich PDFs durchsuchbar zu machen – OCR (optical character recognition) also auf Bilder und PDFs nachträglich anzuwenden? Darauf soll dieser Beitrag kurz eingehen. Vorab sei angemerkt: Viele Wege führen nach Rom, viele Scanner liefern Software zum nachträglichen Bearbeiten mit, ich gehe hier nur auf einige wenige Lösungen ein, die Android, iOS, Windows und OS X betreffen.

Scanbot:

In meinem Beitrag erwähnte ich, dass ich Scanbot unter iOS und Android nutze. Die App erstellt nicht nur Scans und lässt die Zeichenerkennung über diese laufen, man kann auch nachträglich OCR anwenden. Das lässt sich beispielsweise mit JPG-Dateien machen, also einfachen Fotos von Dokumenten. Einfach die Galerie innerhalb von Scanbot nutzen, betreffendes Dokument durch Scanbot jagen – fertig. Das PDF ist nun durchsuchbar und kann lokal oder irgendwo gespeichert werden. Wer Scanbot gerne nutzt und es für die Lösung Nummer 1 hält, der kann ja PDFs ohne OCR schnell per Batch nach JPG umwandeln und dann Stück für Stück mit OCR versehen. Kann bei großen Mengen von Dokumenten am Smartphone oder Tablet aber aufwendig sein.

Google Drive:

Seit 2013 kann der Google Drive mit OCR umgehen, seit 2015 mit über 200 Sprachen. Wer reine Dokumente ohne großartige Grafiken umwandeln möchte, kann auch den Google Drive für Extrahieren des Textes nutzen. Dokumente in den Google Drive laden und über das Kontextmenü mit Google Docs öffnen. Heraus kommt eine neue Datei mit extrahiertem Text. Übrigens: Wer eh den Google Drive für seine Dokumente nutzt, der kann auch die offizielle App nutzen, diese sorgt auch für eine Texterkennung.

Microsoft Office Lens:

Gerade für OneNote-Nutzer interessant: die kostenlose Office Lens-Software, die es auch für Android und iOS gibt. Kann nicht nur Handschrift mittels OCR in durchsuchbaren Text umwandeln, sondern auch nachträglich Dateien öffnen und diese bezüglich ihres Textes erkennen und das durchsuchbare Endresultat exportieren.

PDF OCR X für Windows und OS X:

Ein in der kostenlosen Community-Version beschnittenes, aber brauchbares Programm, welches Christian vorschlägt. Beschnitten deshalb, weil nur Einzelseiten unterstützt werden. Wer PDF-Dateien mit mehr als einer Seite hat, muss diese einzeln „OCRen“. Das kostenlose Umwandeln kann in ein Textdokument oder in ein durchsuchbares PDF erfolgen.

pdf

Textfee für Android: Die App stellte ich bereits in einem gesonderten Beitrag vor. Mit ihr könnt ihr nicht nur Dokumente abfotografieren und OCRen, auch das nachträgliche Extrahieren von Text ist aus Bildern oder PDF-Dokumenten möglich. Diese neu erstellten Dokumente lassen sich ganz normal für euer Archiv speichern.

FreeOCR für Windows. Scannt und erstellt PDF-Dateien kostenlos, kann aber auch nachträglich Dokumente OCRen. Nachteil: nur reines Extrahieren in Text, erstellt kein neues PDF.

Dann gibt es noch Scan2PDF „Freeware OCR Scanner Software“. Zu bedenken: Nur für den nicht kommerziellen Einsatz kostenlos. Scannt auch Dokumente mit OCR, wandelt aber auch nachträglich um aus PDF und Bild. Nachteile der kostenlosen Version? Werbung bei jedem Start und OCRen geht nur bei der ersten Seite eines Dokumentes.

Wie erwähnt: Viele Wege führen nach Rom und auch in diesem Bereich findet man zahlreiche Lösungen von günstig bis teuer. Selbst Mullu Mullu-Scanner bringen oftmals Software mit, die OCR beherrscht und wer ein DMS einsetzt, bekommt auch hier mittlerweile Module, die automatisiert den Text in die Datenbank bringen.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

caschy

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Seit 2008 ist es Beruf(ung). Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei LinkedIn, Twitter, Facebook, Instagram und YouTube. PayPal-Kaffeespende. Mail: carsten@caschys.blog

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

36 Kommentare

  1. Ebenfalls ganz gut ist OmniPage für Windows. Die beste OCR Software gibt es aber für Linux.

  2. Ich arbeite unter Linux mit „ocrmypdf“ (setzt u.a. auf tesseract auf) und bin mit dem Ergebnis wunderbar zufrieden. Gibt es auch als docker-Container.

  3. Ich finde die OCR-Implementierung von Google Drive sehr unbefriedigend. Jedes PDF muss man manuell OCRen, und dann hat man da ein unnützes Google Documents File rumfliegen. Die Suche in nicht OCRten Dateien funktioniert auch eher bescheiden.
    Ich mach das OCR daher mit Doxie, weil ich auch einen Doxie Go besitze.

    Aber falls ich da beim GDrive OCR irgendwas übersehen habe, weist mich bitte darauf hin.

  4. @Sasch Kann „ocrmypdf“ auch mit mehreren Sprachen umgehen? Ich suche etwas für japanisch unter Linux.

  5. Für gelegentliche Texterkennung unter Windows finde ich die integrierte Funktion im PDF XChange Viewer völlig ausreichend.

  6. Habe ich DIE Lösung übersehen?
    Keines der vorgestellten Programme löste das Problem zu 100%. Entweder konnte es nicht PDF inkl. OCR aus PDFs erstellen, es konnte keine mehrseitigen PDFs oder es machte nur die 1 Seite.

    Damit ist doch alles unbrauchbar. Die meisten Leute haben doch eher einen Sack voller PDFs von Rechnungen, Angeboten, etc. auf der Platte liegen. Die händische Abarbeitung ist damit obsolet.

    Gibt es wirklich kein Programm, welches man mit alles PDFs füttert und er neue PDFs inkl. OCR erstellt? Und das alles ohne Lite/Kastrationsgetue.

  7. @Bulli: PDF XChange Viewer kann den Text mehrerer Seiten erkennen und legt keine extra Datei an. Schon mal probiert?

  8. Gibt es ein Program das vorhandene pdfs im batch in OCR PDFs umwandeln kann die bereits auf einem Windows Rechner vorliegen??

  9. @JohnDoe: Siehe mein Post Acrobat 7.0 Pro.Einfach auf Erweitert/Stapelverarbeitung und dort eine neue Sequenz mit OCR erstellen. Dort kann man direkt den Ordner wählen. Anschließend ausführen und alle Dateien sind mit OCR erkannt 🙂

  10. Das beste wäre eigentlich ein Konsolentool. Man startet es, es nimmt alle PNGs und PDFs vor. Macht aus den PNGs PDFs und wenn dem (besehenden) PDFs ein Les- und durchsuchbarer Text ist, wird der in’s PDF nachträglich integriert. Alles andere ist zu Umständlich, wenn man bereits tausende PNGs und PDFs hat und nachträglich durchsuchbar erfassen will.

  11. Sebastian says:

    Hab mir nen Scanserver aus nem Raspberry und nem hp officejet gebaut.
    Als Software PHP-Scanner-Server (Webfrontend), ImageMagick (Hinergrund Bildoptimierung) und Tesseract (OCR und PDF generierung inkl. Text).

    Unter Linux ist tesseract mMn vollkommen ausreichend. Klar Frontend ist oft schöner.

  12. Caschy ich finde deine Sammlung an Infos zum papierlosen Büro ja alle ganz gut.
    Was mir für eine wichtige Info fehlt aktuell, wie kann ich bei so einem Scan sagen, Original Dokument (mit Grafiken usw) bleibt erhalten, wird aber durchsuchbar? ALle Anwendungen die ich bisher getestet habe, erstellen ein neues Dokument, das eingescannte Originaldokument bleibt nicht erhalten. Zuletzt habe ich das mit Omnipage ausprobiert…

  13. @Vali: Verstehe ich nicht ganz. Ich scanne ein Dokument. Da sind doch alle Informationen drin? (Text und Grafiken)

  14. danke für all eure tipps zum herstellen von ocr-pdfs… meine betrifft aber nicht das erstellen sondern das wiederfinden. womit suche ich dokumentenübergriefend nach inhalten der pdfs? meine pdfs liegen auf dem nas und die windows 10 suche weigert sich standhaft, nicht-lokale ordner zu indizieren…
    wie finde ich also ein bestimmtes texterkanntes-pdf wieder?

  15. In meinen Samsung Smartphones gibt es den „Text & Bildscanner“. Der kann das auch und funktioniert erstaunlich gut. Einfach mal gucken!

  16. Wie immer bei OCR-Lösungen, gerade wenn sie in einer App laufen, ist es durchaus interessant/wichtig zu wissen, ob der OCR-Vorgang lokal, oder im Web durchgeführt wird!
    Bitte überarbeite doch deinen Artikel und gib zu jeder Lösungsvariante an, ob die Daten/Dateien den Rechner verlassen, oder nicht.
    Danke dir!

  17. Ich hatte letzes Jahr Google Drive gegen OneDrive getestet indem ich eine eingescannte Zeitschrift hochgeladen habe.
    OneDrive kam mit einer geringeren Scann-Qualität aus, was viel kleinere Dateien ermöglicht, und lieferte auch die bessere Erkennung.

  18. @caschy: Ja die Grafiken sind zuerst da. Aber sobald ich OCR anwende (aktuell OmniPage) wird versucht aus der Grafik Text zu machen. Dann habe ich in der Ausgabe Datei eben nicht mehr die Grafik, sondern irgendein Buchtstabenwirrwarr….

  19. @Vali ich mach das bei mir unter Linux mit einem Konsolentool, namens pdfsandwich.
    Das macht es relativ simple, es erstellt den Text und legt ihn hinter das gescannte Bild. Dadurch ist das Ergebnis durchsuchbar und trotzdem kein Problem mit kaputten Texten 😀

  20. Christoph says:

    @Cashy
    Ich hatte Dir FCpro HotFolder (http://www.pdfblog.at/2015/01/hotfolder-fuer-fileconverterpro-windows-dienst-fuer-folder-monitoring/) mal als Tipp gesendet und passt hier wohl auch rein in die Liste.

    Die Anwendung ist Freeware und installiert sich als Windowsdienst. Über einen Hot-Folder werden alle PDFs, die in diesen Ordner kopiert werden, einem OCR unterworfen.

    Funzt bei mir astrein und stabil unter Windows 10

Bevor du deinen Kommentar abschickst:
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor.

Du willst nichts verpassen?
Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren. Alternativ könnt ihr euch via E-Mail über alle neuen Beiträge hier im Blog informieren lassen. Einfach eure E-Mail-Adresse hier eingeben, dann bekommt ihr 1x täglich morgens eine Zusammenstellung. Mit dem Absenden willigst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.