PDF oder Bilder: OCR-Texterkennung nachträglich

pdf logoIch schrieb in diesem Beitrag etwas über mein Büro ohne Papier. Wie ich mit Papier umgehe, wie ich es sortiere und einiges mehr. Kein Hexenwerk, komplett ohne Cloud oder Software für das Dokumenten-Management. Ein Smartphone oder ein Scanner reicht schon. Nun ist es wie folgt, dass vielleicht der eine oder andere noch alte Dokumente hat, die vielleicht nicht durchsuchbar sind. Nicht alles, was die Dateiendung PDF hat, ist auch ein durchsuchbares PDF – und viele Scanner-Apps beherrschen kein OCR, sondern machen nur ein Bild oder ein PDF, ohne die enthaltenen Informationen zu extrahieren. So hat man vielleicht alles schön digital, findet aber unter Umständen doch nichts.

Was also tun, um nachträglich PDFs durchsuchbar zu machen – OCR (optical character recognition) also auf Bilder und PDFs nachträglich anzuwenden? Darauf soll dieser Beitrag kurz eingehen. Vorab sei angemerkt: Viele Wege führen nach Rom, viele Scanner liefern Software zum nachträglichen Bearbeiten mit, ich gehe hier nur auf einige wenige Lösungen ein, die Android, iOS, Windows und OS X betreffen.

Scanbot:

In meinem Beitrag erwähnte ich, dass ich Scanbot unter iOS und Android nutze. Die App erstellt nicht nur Scans und lässt die Zeichenerkennung über diese laufen, man kann auch nachträglich OCR anwenden. Das lässt sich beispielsweise mit JPG-Dateien machen, also einfachen Fotos von Dokumenten. Einfach die Galerie innerhalb von Scanbot nutzen, betreffendes Dokument durch Scanbot jagen – fertig. Das PDF ist nun durchsuchbar und kann lokal oder irgendwo gespeichert werden. Wer Scanbot gerne nutzt und es für die Lösung Nummer 1 hält, der kann ja PDFs ohne OCR schnell per Batch nach JPG umwandeln und dann Stück für Stück mit OCR versehen. Kann bei großen Mengen von Dokumenten am Smartphone oder Tablet aber aufwendig sein.

Google Drive:

Seit 2013 kann der Google Drive mit OCR umgehen, seit 2015 mit über 200 Sprachen. Wer reine Dokumente ohne großartige Grafiken umwandeln möchte, kann auch den Google Drive für Extrahieren des Textes nutzen. Dokumente in den Google Drive laden und über das Kontextmenü mit Google Docs öffnen. Heraus kommt eine neue Datei mit extrahiertem Text. Übrigens: Wer eh den Google Drive für seine Dokumente nutzt, der kann auch die offizielle App nutzen, diese sorgt auch für eine Texterkennung.

Microsoft Office Lens:

Gerade für OneNote-Nutzer interessant: die kostenlose Office Lens-Software, die es auch für Android und iOS gibt. Kann nicht nur Handschrift mittels OCR in durchsuchbaren Text umwandeln, sondern auch nachträglich Dateien öffnen und diese bezüglich ihres Textes erkennen und das durchsuchbare Endresultat exportieren.

PDF OCR X für Windows und OS X:

Ein in der kostenlosen Community-Version beschnittenes, aber brauchbares Programm, welches Christian vorschlägt. Beschnitten deshalb, weil nur Einzelseiten unterstützt werden. Wer PDF-Dateien mit mehr als einer Seite hat, muss diese einzeln „OCRen“. Das kostenlose Umwandeln kann in ein Textdokument oder in ein durchsuchbares PDF erfolgen.

pdf

Textfee für Android: Die App stellte ich bereits in einem gesonderten Beitrag vor. Mit ihr könnt ihr nicht nur Dokumente abfotografieren und OCRen, auch das nachträgliche Extrahieren von Text ist aus Bildern oder PDF-Dokumenten möglich. Diese neu erstellten Dokumente lassen sich ganz normal für euer Archiv speichern.

FreeOCR für Windows. Scannt und erstellt PDF-Dateien kostenlos, kann aber auch nachträglich Dokumente OCRen. Nachteil: nur reines Extrahieren in Text, erstellt kein neues PDF.

Dann gibt es noch Scan2PDF „Freeware OCR Scanner Software“. Zu bedenken: Nur für den nicht kommerziellen Einsatz kostenlos. Scannt auch Dokumente mit OCR, wandelt aber auch nachträglich um aus PDF und Bild. Nachteile der kostenlosen Version? Werbung bei jedem Start und OCRen geht nur bei der ersten Seite eines Dokumentes.

Wie erwähnt: Viele Wege führen nach Rom und auch in diesem Bereich findet man zahlreiche Lösungen von günstig bis teuer. Selbst Mullu Mullu-Scanner bringen oftmals Software mit, die OCR beherrscht und wer ein DMS einsetzt, bekommt auch hier mittlerweile Module, die automatisiert den Text in die Datenbank bringen.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Hallo, ich bin Carsten! Baujahr 1977, Dortmunder im Norden, BVB-Getaufter und Gründer dieses Blogs. Auch zu finden bei Twitter, Google+, Facebook, Instagram und YouTube. PayPal-Kaffeespende. Mail: carsten@caschys.blog

36 Kommentare

  1. Ebenfalls ganz gut ist OmniPage für Windows. Die beste OCR Software gibt es aber für Linux.

  2. Ich arbeite unter Linux mit „ocrmypdf“ (setzt u.a. auf tesseract auf) und bin mit dem Ergebnis wunderbar zufrieden. Gibt es auch als docker-Container.

  3. Ich finde die OCR-Implementierung von Google Drive sehr unbefriedigend. Jedes PDF muss man manuell OCRen, und dann hat man da ein unnützes Google Documents File rumfliegen. Die Suche in nicht OCRten Dateien funktioniert auch eher bescheiden.
    Ich mach das OCR daher mit Doxie, weil ich auch einen Doxie Go besitze.

    Aber falls ich da beim GDrive OCR irgendwas übersehen habe, weist mich bitte darauf hin.

  4. @Sasch Kann „ocrmypdf“ auch mit mehreren Sprachen umgehen? Ich suche etwas für japanisch unter Linux.

  5. Für gelegentliche Texterkennung unter Windows finde ich die integrierte Funktion im PDF XChange Viewer völlig ausreichend.

  6. Habe ich DIE Lösung übersehen?
    Keines der vorgestellten Programme löste das Problem zu 100%. Entweder konnte es nicht PDF inkl. OCR aus PDFs erstellen, es konnte keine mehrseitigen PDFs oder es machte nur die 1 Seite.

    Damit ist doch alles unbrauchbar. Die meisten Leute haben doch eher einen Sack voller PDFs von Rechnungen, Angeboten, etc. auf der Platte liegen. Die händische Abarbeitung ist damit obsolet.

    Gibt es wirklich kein Programm, welches man mit alles PDFs füttert und er neue PDFs inkl. OCR erstellt? Und das alles ohne Lite/Kastrationsgetue.

  7. @Bulli: PDF XChange Viewer kann den Text mehrerer Seiten erkennen und legt keine extra Datei an. Schon mal probiert?

  8. Gibt es ein Program das vorhandene pdfs im batch in OCR PDFs umwandeln kann die bereits auf einem Windows Rechner vorliegen??

  9. @JohnDoe: Siehe mein Post Acrobat 7.0 Pro.Einfach auf Erweitert/Stapelverarbeitung und dort eine neue Sequenz mit OCR erstellen. Dort kann man direkt den Ordner wählen. Anschließend ausführen und alle Dateien sind mit OCR erkannt 🙂

  10. Das beste wäre eigentlich ein Konsolentool. Man startet es, es nimmt alle PNGs und PDFs vor. Macht aus den PNGs PDFs und wenn dem (besehenden) PDFs ein Les- und durchsuchbarer Text ist, wird der in’s PDF nachträglich integriert. Alles andere ist zu Umständlich, wenn man bereits tausende PNGs und PDFs hat und nachträglich durchsuchbar erfassen will.

  11. Sebastian says:

    Hab mir nen Scanserver aus nem Raspberry und nem hp officejet gebaut.
    Als Software PHP-Scanner-Server (Webfrontend), ImageMagick (Hinergrund Bildoptimierung) und Tesseract (OCR und PDF generierung inkl. Text).

    Unter Linux ist tesseract mMn vollkommen ausreichend. Klar Frontend ist oft schöner.

  12. Caschy ich finde deine Sammlung an Infos zum papierlosen Büro ja alle ganz gut.
    Was mir für eine wichtige Info fehlt aktuell, wie kann ich bei so einem Scan sagen, Original Dokument (mit Grafiken usw) bleibt erhalten, wird aber durchsuchbar? ALle Anwendungen die ich bisher getestet habe, erstellen ein neues Dokument, das eingescannte Originaldokument bleibt nicht erhalten. Zuletzt habe ich das mit Omnipage ausprobiert…

  13. @Vali: Verstehe ich nicht ganz. Ich scanne ein Dokument. Da sind doch alle Informationen drin? (Text und Grafiken)

  14. danke für all eure tipps zum herstellen von ocr-pdfs… meine betrifft aber nicht das erstellen sondern das wiederfinden. womit suche ich dokumentenübergriefend nach inhalten der pdfs? meine pdfs liegen auf dem nas und die windows 10 suche weigert sich standhaft, nicht-lokale ordner zu indizieren…
    wie finde ich also ein bestimmtes texterkanntes-pdf wieder?

  15. In meinen Samsung Smartphones gibt es den „Text & Bildscanner“. Der kann das auch und funktioniert erstaunlich gut. Einfach mal gucken!

  16. Wie immer bei OCR-Lösungen, gerade wenn sie in einer App laufen, ist es durchaus interessant/wichtig zu wissen, ob der OCR-Vorgang lokal, oder im Web durchgeführt wird!
    Bitte überarbeite doch deinen Artikel und gib zu jeder Lösungsvariante an, ob die Daten/Dateien den Rechner verlassen, oder nicht.
    Danke dir!

  17. Ich hatte letzes Jahr Google Drive gegen OneDrive getestet indem ich eine eingescannte Zeitschrift hochgeladen habe.
    OneDrive kam mit einer geringeren Scann-Qualität aus, was viel kleinere Dateien ermöglicht, und lieferte auch die bessere Erkennung.

  18. @caschy: Ja die Grafiken sind zuerst da. Aber sobald ich OCR anwende (aktuell OmniPage) wird versucht aus der Grafik Text zu machen. Dann habe ich in der Ausgabe Datei eben nicht mehr die Grafik, sondern irgendein Buchtstabenwirrwarr….

  19. @Vali ich mach das bei mir unter Linux mit einem Konsolentool, namens pdfsandwich.
    Das macht es relativ simple, es erstellt den Text und legt ihn hinter das gescannte Bild. Dadurch ist das Ergebnis durchsuchbar und trotzdem kein Problem mit kaputten Texten 😀

  20. Christoph says:

    @Cashy
    Ich hatte Dir FCpro HotFolder (http://www.pdfblog.at/2015/01/hotfolder-fuer-fileconverterpro-windows-dienst-fuer-folder-monitoring/) mal als Tipp gesendet und passt hier wohl auch rein in die Liste.

    Die Anwendung ist Freeware und installiert sich als Windowsdienst. Über einen Hot-Folder werden alle PDFs, die in diesen Ordner kopiert werden, einem OCR unterworfen.

    Funzt bei mir astrein und stabil unter Windows 10

  21. Kennt einer hier evtl. eine Lösung die das was Scanbot kann mit einer Webcam realisiert? Denn eine Webcam wäre deutlich günstiger als ein Handy 🙂

  22. @Matthias: Versuch mal den PDF Xchange Editor statt des Viewers. Sehr umfangreich auch nach Deaktivierung aller Bezahl-Features. Meines Erachtens gibt es keinen Grund mehr, den reinen Viewer einzusetzen (ich glaube, der läuft auch aus)

  23. Danke für die Auflistung der Tools, bisher nutze ich nur Scanboot auf dem Handy, aber recht wenig. Bisher macht die Software meines Scanners OCR direkt beim scannen und das reicht vollkommen.
    Nur für die Tankquittungen und Kassenzettel unterwegs ist dann doch Scanboot die bessere Wahl merke ich immer mehr.

  24. Das in Doxie eingebaute ocr Feature kommt mit ca. einem Fehler pro DIN A4 Seite aus und ist daher gar nicht so schlecht. Eine wirkliche super Lösung ohne regelmäßige Fehler ist mir noch nicht untergekommen.

  25. Es ist über all das selbe: Texterkennung über OCR, aber niemand redet darüber, dass aus den entsprechenden Informationen automatisch Schlagwörter extrahiert die neue eingebettet werden. Nur das macht für mich Sinn, denn wenn, dann möchte ich ja auch einen großen Stapel an Papieren am Stück verschlagworten, um sie zu benamsen und später schnell wiederzufinden. Eine gute OCR-Erkennung bekommt man ja heute mit jedem guten Scanner geschenkt, das ist für mich nicht das Problem.

  26. Hat schon jemand naps2 vorgeschlagen ?
    http://www.naps2.com/

  27. Da muss ich aber @Bulli -Habe ich DIE Lösung übersehen? – recht geben, die vorgestellten Tools sind wohl nicht ganz zufriedenstellend. Darf es denn nichts kosten? Hier sind ja in den Kommentare wesentlich besser Lösungen zu finden.
    Ich nutze derzeit https://www.abbyy.com/de-de/finereader/corporate/editions-comparison/ in der Portablen Version mittels Hotfolder lassen sich mehrere Netzwerkordner als Aufgabe überwachen. Sobald ein Scan eintrudelt, wird OCR gemacht und Orginaldatei in Tempordner verschoben und meine OCR-PDF im Zielordner abgelegt.
    Aber naps2 und smalldms ist bestimmt ein Blick wert.

  28. …und ABBYY PDF Transformer+ macht die OCR Aufgabe auch recht gut, war öfteres schon mal im Angebot.

  29. @Christoph FCpro HotFolder ist aber nicht so toll, da werden ja alle Scans zum Anbieter in AT hochgeladen, OCR erstellt und in meinem Ordner abgelegt.
    Schade aber das geht gar nicht….OCR muss schon lokal durchgeführt werden.

  30. @Fabian mein gescanntes PDF, was ich zum Test benutzt habe, konnte irgendwie nur in Google Drive gefunden werden. OneDrive hat da nix „gesehen“.

  31. Mal eine dumme Frage. Mit welchem Tool durchsuche ich dann eigentlich meine Ordner mit den ganzen OCR-PDFs?
    Welches Tool erstellt seinen eigenen Index? Ich würde die PDFs gerne auf meinem NAS ablegen. Dann bräuchte ich aber ein Tool mit einem eigenen lokalen Index damit es bei der Suche nicht alle PDFs übers Netzwerk vom NAS lesen muss.

  32. Also ich habe jetzt versucht, mit ScanBot Pro Dokumente einzuscannen und diese dann in meiner Dropbox abzulegen. Das funktioniert auch. Aber die PDFs die dort abgelegt werden kann ich am PC (MAC) nicht durchsuchen mit dem Acrobat Reader. In der ScanBot App aber schon. Mache ich etwas falsch?

  33. @Michael Brüggemann: Lookeen, Copernic Desktop Search (beide wenn günstig um die 25 EUR) oder das kostenlose DocFetcher sind meine Favoriten zur lokalen Dateisuche (bzw. im internen Netz).

  34. Hallo Caschy, ich habe schon eine ganze Menge zum Thema ‚papierloses Büro‘ und ‚durchsuchbare pdf‘ gelesen; was mir aber fehlt: wie erkenne ich (bzw. eine stapelverarbeitende SW), ob eine pdf schon durchsuchbar ist oder nicht. Problem: wird eine bereits mit OCR behandelte pdf wiederholt einer OCR unterzogen, wird das Ergebnis/die Qualität der Darstellung schlechter; das tut der Suche sicher keinen Abbruch, aber wenn man dann doch mal was drucken möchte, sieht’s halt grottig aus. Zur Vorbereitung der OCR würde ich auch selbst über ein script die nicht durchsuchbaren pdf auflisten – leider habe ich aber bisher noch keine Dokumenteneigenschaft gefunden, die genau diese Unterscheidung zulässt. Kennt vielleicht hier jemand die Lösung?
    Danke und Gruß
    rraphia

  35. Hallo zusammen,

    Kennt ihr eine Lösung mit der ich die per OCR erkannten Texte vor der Generierung des „neuen“ PDFs editieren kann?
    Alle von mir getesteten Apps erkennen nicht zuverlässig. Um durchsuchbare PDFs zu erhalten würde ich gerne sicherstellen, ob die wichtigsten Überschriften etc korrekt erkannt wurden und ggf korrekt anpassen.

  36. Hallo zusammen, es gibt noch die Freeware OCRPDF von Horland welches mit einem Klick mehrseitige PDFs umwandelt und als neue Datei speichert. Nicht zu verwechseln mit Scan2PDF das hier schon erwähnt wurde.