OCR-Durchführung von PDF-Dokumenten unter Synology DSM 7

Einen beliebten Beitrag aus dem Jahre 2019 möchten wir noch einmal aktualisieren, quasi die Ausgabe 2022, weil sich Dinge geändert haben. Wir beschrieben damals das Durchführen von OCR auf NAS-Geräten von Synology. Was hat sich seit 2019 geändert? Richtig, es gibt den DiskStation Manager 7 (DSM 7) und anfangs funktionierte die von uns beschriebene Lösung. Doch erst einmal der klassische Reinholer, da ich mal davon ausgehe, dass niemand den Beitrag direkt im Kopf hat.

synOCR ist eine Oberfläche für eine Texterkennungs-Software namens OCRmyPDF, um PDF-Dokumente durchsuchbar zu machen. Kennt ihr vielleicht: Manche PDF-Dokumente sind durchsuchbar, manche nicht. Ich für meinen Teil möchte sie durchsuchbar haben, damit ich meine Dokumente, bzw. deren Inhalte schnell finde. Persönlich setze ich seit Jahren nicht auf einen Dokumentenscanner, mir reicht das Smartphone.

Ich nutze keine Datenbank-Software, lege also nur Dokumente in Ordnern ab. Suche ich etwas, so finde ich dies anhand von Ordnern oder eben OCR. synOCR (Open Source) eignet sich für alle, die viele, nicht „OCRte“ Dokumente haben und diese quasi mit OCR aufpeppen wollen. Das Modul kann manuell installiert werden, erfordert aber, dass euer NAS Docker-fähig ist.

Sobald ihr synOCR manuell installiert habt, habt ihr einen Eintrag im Startmenü eures NAS und könnt es dort aufrufen. Ein einmaliges Konfigurieren ist nötig, aber recht schnell gemacht, da alles erklärt wird. Wichtig dabei ist, dass ihr das auf der Startseite von synOCR angegebene Script im Aufgabenplaner hinterlegt und mindestens einmal als root ausführt. Ist dies nämlich nicht erledigt, können auch keine manuellen OCR-Vorgänge durchgeführt werden.

Wichtig: Solltet ihr nach dem Ausführen des Scripts auf der Startseite von synOCR immer noch die Warnmeldung vorfinden, dann führt die Aufgabe mit dem Script ein paar Mal aus. Es kann sein, dass die entsprechenden Rechte nicht richtig gesetzt wurden.

 

Letzten Endes kann synOCR so automatisch in einem Ordner nachschauen, ob eine Aufgabe zu erledigen ist. Alternativ, wenn es schnell gehen muss, ist ein manuelles Starten möglich. Und wo wir bei den Ordnern sind, die ihr ja eh konfigurieren müsst: Achtet unbedingt darauf, die kompletten Pfade inkl. Volume (z.B. /volume1/…) einzutragen und achtet auf korrekte Groß- und Kleinschreibung.

Passe zunächst deine Installation in der Konfiguration an.
Für einen ordnungsgemäßen Betrieb von synOCR muss im DSM Aufgabenplaner eine neue Aufgabe erstellt werden.

Öffne dazu im DSM die Systemsteuerung
Aufgabenplaner
Schaltfläche Erstellen
geplante Aufgabe
Benutzerdefiniertes Skript

Registerkarte „Allgemein“:
Benutzer root
ein beliebiger Name unter Aufgabe
Haken bei aktiviert

Registerkarte „Zeitplan“:
hier gewünschtes Intervall (z. B. stündlich)

Registerkarte „Aufgabeneinstellungen“:
hier den nachstehenden Pfad hineinkopieren:

/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Das ist der grobe Anriss, um OCR auf PDF-Dokumente anzuwenden, denen dies bislang fehlt. Habt ihr es bis hier hin geschafft, so dürfte folgendes passieren: Ihr werft ein PDF in Ordner X – und euer NAS macht daraus ein PDF mit OCR in Ordner Y.

Wer mag, der kann das Ganze aber noch eine Ecke weiterspinnen, denn es gibt auch Möglichkeiten der Weiterbearbeitung, beispielsweise beim Dateinamen. Dies steht alles in den Optionen zur Umbenennung, sodass ihr da gerne das für euch Passende heraussuchen könnt.

Warum wir dieses Thema hier anbringen: Ich hatte es schon 100x in den vergangenen Jahren, dass Menschen der Meinung waren, dass ihre PDF-Dateien durchsuchbar wären, nur weil IHR System diese durchsuchen kann. Klar, mein Mac oder meine Apple Notizen finden auch Text in Bildern oder PDF-Dateien, wenn diese nicht die OCR-Durchführung durchlaufen haben. Aber darf ich davon ausgehen, dass mein Gegenüber auch so ein Setup hat? Oder weiß ich, was ich in 10 Jahren nutze? Deshalb: Nein, ein Foto ist keine durchsuchbare PDF-Datei und auch eine mit Office Lens oder so erstellte Datei ist nicht überall durchsuchbar.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Seit 2008 ist es Beruf(ung). Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei X, Threads, Facebook, LinkedIn und Instagram. PayPal-Kaffeespende.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

36 Kommentare

  1. Interessant werde ich am Montag mal in der Firma ausprobieren.
    Danke

  2. Wie durchsuchst du deine Ordnerstruktur nach PDF-Inhalten wenn ich fragen darf? Auf der Synology direkt? Die Suche auf Netzwerklaufwerken empfinde ich als sehr langsam (und weiß ehrlich gesagt auch nicht, ob Windows auch PDFs durchsucht?).

    Kann ansonsten für Dokumentenverwaltung paperless-ng sehr empfehlen, sehr übersichtlich imho und macht auch OCR

  3. Rainer Hattenhauer says:

    @Caschy: Welche Scan App verwendest du auf dem Smartphone? Ich habe mit Adobe Scan recht gute Erfahrungen gemacht, ich meine, die bringt OCR auch gleich mit.

    • Hier kann ich dir aus eigener Praxis QuickScan empfehlen (falls du iOS nutzt): tolle OCR, kostenlos, läuft lokal auf dem Gerät. Man kann ganz einfach Dokumente scannen (oder bestehende PDFs laden), auf Wunsch sogar automatisch auf einem Drive (auch WebDAV) ablegen lassen.

  4. „Klar, mein Mac oder meine Apple Notizen finden auch Text in Bildern oder PDF-Dateien, wenn diese nicht die OCR-Durchführung durchlaufen haben.“
    Ist das Apple-Magie? Ich habe nur Windows und habe davon noch nie gehört. Irgendeine OCR muss doch laufen, damit der Text erkannt wird. Wo speichert das System dann den Text, in einem separaten Suchindex?
    Wenn ich unter Windows meinen Dokumentenscanner OCR machen und in PDF/A ausgeben lasse, und der Windows-Explorer den Text findet, dann kann ich doch davon ausgehen, dass der Text tool-unabhängig im PDF abgelegt ist, oder?

    • Das ist in der Tat Apple-Magie, ähnlich wie es Google Drive macht – abgelegte Dateien werden indexiert. Wenn ich die selbe PDF aber auf ein Windows-System ziehe, ist sie nicht mehr durchsuchbar. Deswegen lieber generell durchsuchbar machen.

    • Ja, die OCR Information steckt quasi als Overlay über dem gescannten Bild, aber im selben PDF Dokument, nicht extern irgendwo 🙂

      wenn du so eine OCR-PDF Datei auf das Synology NAS lädst, dann kann man es auch mit der integrierten Suche (Universal Search) und der Windows Explorer Suche durchsuchen.

  5. Für das papierlose Büro kann ich Paperless-NG empfehlen. OCR, Suche, Tags… alles drin. Läuft im Docker Container.

    • what he/she said…
      In Verbindung mit einem ADS-2800W und scan-to-network Profil eine Lösung, die keine Wünsche mehr offen lässt. Zumal der Unterbau mit Tesseract ohnehin der gleiche ist.

      • Nutze einen Fujitsu ScanSnap iX1300.

        Der kann mit W-Lan Anbindung auch in die Dropbox scannen. Über die Synology dann einfach in den Paperless Ordner synchronisieren. Vorteil, scannen geht dann auch von „Unterwegs“ direkt über die Dropbox App oder die Kamera vom Smartphone.

  6. Kleiner Hinweis bzgl. Office Lens bzw. Microsoft Lens. Es kommt auf die Datenschutzeinstellungen an, ob ocr ausgeführt wird oder nicht. Ich weiß leider gerade nicht die genaue Einstellung. Aber ohne die entsprechende Erlaubnis war das pdf nicht durchsuchbar und Text konnte in Adobe Reader nicht markiert werden (war ein Bild). Mit der entsprechenden Erlaubnis ging es dann und in Adobe Reader war Text markierbar usw.

  7. Für alle, die noch DSM6 verwenden, so ist hier die angepasste Version zu verwenden: https://geimist.eu/synOCR/synOCR_DSM6_latest.html

    Übrigens: mittels einer externen YAML-Regeldatei sind auch sehr spezielle Regeln für die Tagsuche und Zielordner möglich – wer mag, auch mittels RegEx

  8. mmh… möglicherweise verwechsle ich mal wieder was… zumindest auf der Synology sollte das Ganze auch über Drive funktionieren… Aber ja trotzdem kein eingebettete OCR Auslesung!

  9. Eine sehr geile Sache.
    Damals den Tipp schon bei Caschy gefunden und installiert.
    Und noch ein großes Lob an den Entwickler Stephan aka geimist, der im Synology Forum hervorragend supported.

  10. Ich suche schon lange nach einer Möglichkeit, meine lokal auf meinem MacBook gespeicherten PDF-Dokumente (und gerne auch andere Dokumente) durchsuchbar zu machen (ich habe keine Synology).

    Es wurde bereits in diesem Artikel an zwei Stellen erwähnt, dass Apple das (über einen „Overlay“) automatisch mache, aber bei mir werden die PDF-Dokumente partout nicht geORCet. Ist insbesondere z. B. bei Kontoauszügen von der Deutschen Bank nervig und mir ist bis heute nicht klar, warum die Kontoauszüge nicht durchsuchbar sind.

    Gibt es eine Möglichkeit, meine PDF-Dokumente lokal und in einem Rutsch durchsuchbar zu machen? Zum Beispiel alle Kontoauszüge, die im PDF-Format vorliegen, im Ordner 2021 sollen durchsuchbar gemacht werden.

    • So wie ich das beim Lesen des Beitrags verstanden habe, greift synOCR auf OCRmyPDF zurück, das ich auch ohne grafische Oberfläche sehr empfehlen kann. Das habe ich bereits über hunderte PDFs laufen lassen, um diese über Spotlight auf dem Mac (und natürlich auch überall anders) durchsuchbar zu machen. Das ist halt ein Kommandozeilentool, also darf man keine Angst vor dem Terminal haben. Aber ich finde es ziemlich gut dokumentiert und verständlich: https://ocrmypdf.readthedocs.io/en/latest/
      Mit dem Automator auf dem Mac kann auch eine Ordneraktion erstellt werden, die ein bash-Skript mit den nötigen Befehlen im Hintergrund ausführt, wenn neue Dateien diesem bestimmten Ordner hinzugefügt werden. Habe ich so eingerichtet, benutze das auf diese Weise aber nur sehr selten. Ich sehe lieber im Terminal direkt die Rückmeldung des Tools.

  11. Ich verwende SwiftScan Pro auf dem iPhone. Das tool macht nach dem Scannen automatisch OCR und lädtanschließend die Dokumente automatisch per WebDAV auf die Synology.
    Mein gesamter Posteingang wird so schon seit Jahren digitalisiert.

  12. Gerne wieder mehr Tipps/Tricks zur Synology!

  13. Wer noch keinen Scanner hat oder sich einen neuen zulegen möchte: stand vor der Aufgabe ca 7000 Notenblätter für einen Chor zu scannen. Mit einem normalen Flachbett – Scanner eine Never-Ending-Story. Habe dann auf Indiegogo folgenden Scanner https://www.indiegogo.com/projects/shine-ultra-next-gen-portable-powerful-scanner/x/24621934#/updates/all gekauft. Mittlerweile gibt es sogar ein Nachfolgemodell.

    Der Scanner arbeitet genau wie ein App auf dem Smartphone: erkennen des Blattes auf dem Hintergrund und automatisches Ausrichten. OCR kann er auch.

    Der Scanner hat ein Fußpedal und das Scannen (geht daher wirklich sehr sehr schnell von der Hand.

  14. Thorsten Witt says:

    Was mich aber am meisten nervt das ich auf dem iPhone keine Volltextsuche übergreifend über alle PDFs in der iCloud machen kann. Bin der Meinung, dass das früher mal funktioniert hat.

  15. Moin, ich verfolge synOCR schon eine weile – suche aber vergeblich eine funktionierende DSM 7 Version. Hat dazu jemand eine funktionierende und erprobte Anleitung?

  16. Ich nutze das Tool schon seit ca. 3 Jahren in Kombination mit der Software „FindIT 5“ (unter Windows) für meine digitale Dokumentenablage. Die auf der Synology (DS 218+) abgelegten Dateien synchronisiere ich für ne schnellere Durchsuchbarkeit lokal. Gescannt werden die Eingänge mit einem Brother ADS 1700W direkt in (wenige) unterschiedliche Profile.

  17. Vielen Dank für die tolle Beschreibung und den senstationellen blog. Leider bekomm ich Docker nicht installiert. Auch die Dateien aus dem synology archive helfen nicht… hast du ne idee was ich falsch mache?
    Wäre klasse falls du mir helfen könntest!
    DMS Version: 7.0.1
    THX

    • Du schreibst leider nicht, welche DS du hast. Docker gibt es offiziell nur für Geräte mit 64Bit Intel / AMD CPU (z.B. viele ab der PLUS Serie). Auch Geräte mit ARM 64Bit können wohl Docker installiert bekommen, aber das geht dann nur per Shell.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.