PDF oder Bilder: OCR-Texterkennung nachträglich

pdf logoIch schrieb in diesem Beitrag etwas über mein Büro ohne Papier. Wie ich mit Papier umgehe, wie ich es sortiere und einiges mehr. Kein Hexenwerk, komplett ohne Cloud oder Software für das Dokumenten-Management. Ein Smartphone oder ein Scanner reicht schon. Nun ist es wie folgt, dass vielleicht der eine oder andere noch alte Dokumente hat, die vielleicht nicht durchsuchbar sind. Nicht alles, was die Dateiendung PDF hat, ist auch ein durchsuchbares PDF – und viele Scanner-Apps beherrschen kein OCR, sondern machen nur ein Bild oder ein PDF, ohne die enthaltenen Informationen zu extrahieren. So hat man vielleicht alles schön digital, findet aber unter Umständen doch nichts.

Was also tun, um nachträglich PDFs durchsuchbar zu machen – OCR (optical character recognition) also auf Bilder und PDFs nachträglich anzuwenden? Darauf soll dieser Beitrag kurz eingehen. Vorab sei angemerkt: Viele Wege führen nach Rom, viele Scanner liefern Software zum nachträglichen Bearbeiten mit, ich gehe hier nur auf einige wenige Lösungen ein, die Android, iOS, Windows und OS X betreffen.

Scanbot:

In meinem Beitrag erwähnte ich, dass ich Scanbot unter iOS und Android nutze. Die App erstellt nicht nur Scans und lässt die Zeichenerkennung über diese laufen, man kann auch nachträglich OCR anwenden. Das lässt sich beispielsweise mit JPG-Dateien machen, also einfachen Fotos von Dokumenten. Einfach die Galerie innerhalb von Scanbot nutzen, betreffendes Dokument durch Scanbot jagen – fertig. Das PDF ist nun durchsuchbar und kann lokal oder irgendwo gespeichert werden. Wer Scanbot gerne nutzt und es für die Lösung Nummer 1 hält, der kann ja PDFs ohne OCR schnell per Batch nach JPG umwandeln und dann Stück für Stück mit OCR versehen. Kann bei großen Mengen von Dokumenten am Smartphone oder Tablet aber aufwendig sein.

Google Drive:

Seit 2013 kann der Google Drive mit OCR umgehen, seit 2015 mit über 200 Sprachen. Wer reine Dokumente ohne großartige Grafiken umwandeln möchte, kann auch den Google Drive für Extrahieren des Textes nutzen. Dokumente in den Google Drive laden und über das Kontextmenü mit Google Docs öffnen. Heraus kommt eine neue Datei mit extrahiertem Text. Übrigens: Wer eh den Google Drive für seine Dokumente nutzt, der kann auch die offizielle App nutzen, diese sorgt auch für eine Texterkennung.

Microsoft Office Lens:

Gerade für OneNote-Nutzer interessant: die kostenlose Office Lens-Software, die es auch für Android und iOS gibt. Kann nicht nur Handschrift mittels OCR in durchsuchbaren Text umwandeln, sondern auch nachträglich Dateien öffnen und diese bezüglich ihres Textes erkennen und das durchsuchbare Endresultat exportieren.

PDF OCR X für Windows und OS X:

Ein in der kostenlosen Community-Version beschnittenes, aber brauchbares Programm, welches Christian vorschlägt. Beschnitten deshalb, weil nur Einzelseiten unterstützt werden. Wer PDF-Dateien mit mehr als einer Seite hat, muss diese einzeln „OCRen“. Das kostenlose Umwandeln kann in ein Textdokument oder in ein durchsuchbares PDF erfolgen.

pdf

Textfee für Android: Die App stellte ich bereits in einem gesonderten Beitrag vor. Mit ihr könnt ihr nicht nur Dokumente abfotografieren und OCRen, auch das nachträgliche Extrahieren von Text ist aus Bildern oder PDF-Dokumenten möglich. Diese neu erstellten Dokumente lassen sich ganz normal für euer Archiv speichern.

FreeOCR für Windows. Scannt und erstellt PDF-Dateien kostenlos, kann aber auch nachträglich Dokumente OCRen. Nachteil: nur reines Extrahieren in Text, erstellt kein neues PDF.

Dann gibt es noch Scan2PDF „Freeware OCR Scanner Software“. Zu bedenken: Nur für den nicht kommerziellen Einsatz kostenlos. Scannt auch Dokumente mit OCR, wandelt aber auch nachträglich um aus PDF und Bild. Nachteile der kostenlosen Version? Werbung bei jedem Start und OCRen geht nur bei der ersten Seite eines Dokumentes.

Wie erwähnt: Viele Wege führen nach Rom und auch in diesem Bereich findet man zahlreiche Lösungen von günstig bis teuer. Selbst Mullu Mullu-Scanner bringen oftmals Software mit, die OCR beherrscht und wer ein DMS einsetzt, bekommt auch hier mittlerweile Module, die automatisiert den Text in die Datenbank bringen.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Seit 2008 ist es Beruf(ung). Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei Twitter, Facebook, Instagram und YouTube. PayPal-Kaffeespende. Mail: carsten@caschys.blog

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

36 Kommentare

  1. Kennt einer hier evtl. eine Lösung die das was Scanbot kann mit einer Webcam realisiert? Denn eine Webcam wäre deutlich günstiger als ein Handy 🙂

  2. @Matthias: Versuch mal den PDF Xchange Editor statt des Viewers. Sehr umfangreich auch nach Deaktivierung aller Bezahl-Features. Meines Erachtens gibt es keinen Grund mehr, den reinen Viewer einzusetzen (ich glaube, der läuft auch aus)

  3. Danke für die Auflistung der Tools, bisher nutze ich nur Scanboot auf dem Handy, aber recht wenig. Bisher macht die Software meines Scanners OCR direkt beim scannen und das reicht vollkommen.
    Nur für die Tankquittungen und Kassenzettel unterwegs ist dann doch Scanboot die bessere Wahl merke ich immer mehr.

  4. Das in Doxie eingebaute ocr Feature kommt mit ca. einem Fehler pro DIN A4 Seite aus und ist daher gar nicht so schlecht. Eine wirkliche super Lösung ohne regelmäßige Fehler ist mir noch nicht untergekommen.

  5. Es ist über all das selbe: Texterkennung über OCR, aber niemand redet darüber, dass aus den entsprechenden Informationen automatisch Schlagwörter extrahiert die neue eingebettet werden. Nur das macht für mich Sinn, denn wenn, dann möchte ich ja auch einen großen Stapel an Papieren am Stück verschlagworten, um sie zu benamsen und später schnell wiederzufinden. Eine gute OCR-Erkennung bekommt man ja heute mit jedem guten Scanner geschenkt, das ist für mich nicht das Problem.

  6. Hat schon jemand naps2 vorgeschlagen ?
    http://www.naps2.com/

  7. Da muss ich aber @Bulli -Habe ich DIE Lösung übersehen? – recht geben, die vorgestellten Tools sind wohl nicht ganz zufriedenstellend. Darf es denn nichts kosten? Hier sind ja in den Kommentare wesentlich besser Lösungen zu finden.
    Ich nutze derzeit https://www.abbyy.com/de-de/finereader/corporate/editions-comparison/ in der Portablen Version mittels Hotfolder lassen sich mehrere Netzwerkordner als Aufgabe überwachen. Sobald ein Scan eintrudelt, wird OCR gemacht und Orginaldatei in Tempordner verschoben und meine OCR-PDF im Zielordner abgelegt.
    Aber naps2 und smalldms ist bestimmt ein Blick wert.

  8. …und ABBYY PDF Transformer+ macht die OCR Aufgabe auch recht gut, war öfteres schon mal im Angebot.

  9. @Christoph FCpro HotFolder ist aber nicht so toll, da werden ja alle Scans zum Anbieter in AT hochgeladen, OCR erstellt und in meinem Ordner abgelegt.
    Schade aber das geht gar nicht….OCR muss schon lokal durchgeführt werden.

  10. @Fabian mein gescanntes PDF, was ich zum Test benutzt habe, konnte irgendwie nur in Google Drive gefunden werden. OneDrive hat da nix „gesehen“.

  11. Mal eine dumme Frage. Mit welchem Tool durchsuche ich dann eigentlich meine Ordner mit den ganzen OCR-PDFs?
    Welches Tool erstellt seinen eigenen Index? Ich würde die PDFs gerne auf meinem NAS ablegen. Dann bräuchte ich aber ein Tool mit einem eigenen lokalen Index damit es bei der Suche nicht alle PDFs übers Netzwerk vom NAS lesen muss.

  12. Also ich habe jetzt versucht, mit ScanBot Pro Dokumente einzuscannen und diese dann in meiner Dropbox abzulegen. Das funktioniert auch. Aber die PDFs die dort abgelegt werden kann ich am PC (MAC) nicht durchsuchen mit dem Acrobat Reader. In der ScanBot App aber schon. Mache ich etwas falsch?

  13. @Michael Brüggemann: Lookeen, Copernic Desktop Search (beide wenn günstig um die 25 EUR) oder das kostenlose DocFetcher sind meine Favoriten zur lokalen Dateisuche (bzw. im internen Netz).

  14. Hallo Caschy, ich habe schon eine ganze Menge zum Thema ‚papierloses Büro‘ und ‚durchsuchbare pdf‘ gelesen; was mir aber fehlt: wie erkenne ich (bzw. eine stapelverarbeitende SW), ob eine pdf schon durchsuchbar ist oder nicht. Problem: wird eine bereits mit OCR behandelte pdf wiederholt einer OCR unterzogen, wird das Ergebnis/die Qualität der Darstellung schlechter; das tut der Suche sicher keinen Abbruch, aber wenn man dann doch mal was drucken möchte, sieht’s halt grottig aus. Zur Vorbereitung der OCR würde ich auch selbst über ein script die nicht durchsuchbaren pdf auflisten – leider habe ich aber bisher noch keine Dokumenteneigenschaft gefunden, die genau diese Unterscheidung zulässt. Kennt vielleicht hier jemand die Lösung?
    Danke und Gruß
    rraphia

  15. Hallo zusammen,

    Kennt ihr eine Lösung mit der ich die per OCR erkannten Texte vor der Generierung des „neuen“ PDFs editieren kann?
    Alle von mir getesteten Apps erkennen nicht zuverlässig. Um durchsuchbare PDFs zu erhalten würde ich gerne sicherstellen, ob die wichtigsten Überschriften etc korrekt erkannt wurden und ggf korrekt anpassen.

  16. Hallo zusammen, es gibt noch die Freeware OCRPDF von Horland welches mit einem Klick mehrseitige PDFs umwandelt und als neue Datei speichert. Nicht zu verwechseln mit Scan2PDF das hier schon erwähnt wurde.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor.

Du willst nichts verpassen?

Neben der E-Mail-Benachrichtigung habt ihr auch die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.