Einen beliebten Beitrag aus dem Jahre 2019 möchten wir noch einmal aktualisieren, quasi die Ausgabe 2022, weil sich Dinge geändert haben. Wir beschrieben damals das Durchführen von OCR auf NAS-Geräten von Synology. Was hat sich seit 2019 geändert? Richtig, es gibt den DiskStation Manager 7 (DSM 7) und anfangs funktionierte die von uns beschriebene Lösung. Doch erst einmal der klassische Reinholer, da ich mal davon ausgehe, dass niemand den Beitrag direkt im Kopf hat.
synOCR ist eine Oberfläche für eine Texterkennungs-Software namens OCRmyPDF, um PDF-Dokumente durchsuchbar zu machen. Kennt ihr vielleicht: Manche PDF-Dokumente sind durchsuchbar, manche nicht. Ich für meinen Teil möchte sie durchsuchbar haben, damit ich meine Dokumente, bzw. deren Inhalte schnell finde. Persönlich setze ich seit Jahren nicht auf einen Dokumentenscanner, mir reicht das Smartphone.
Ich nutze keine Datenbank-Software, lege also nur Dokumente in Ordnern ab. Suche ich etwas, so finde ich dies anhand von Ordnern oder eben OCR. synOCR (Open Source) eignet sich für alle, die viele, nicht „OCRte“ Dokumente haben und diese quasi mit OCR aufpeppen wollen. Das Modul kann manuell installiert werden, erfordert aber, dass euer NAS Docker-fähig ist.
Sobald ihr synOCR manuell installiert habt, habt ihr einen Eintrag im Startmenü eures NAS und könnt es dort aufrufen. Ein einmaliges Konfigurieren ist nötig, aber recht schnell gemacht, da alles erklärt wird. Wichtig dabei ist, dass ihr das auf der Startseite von synOCR angegebene Script im Aufgabenplaner hinterlegt und mindestens einmal als root ausführt. Ist dies nämlich nicht erledigt, können auch keine manuellen OCR-Vorgänge durchgeführt werden.
Wichtig: Solltet ihr nach dem Ausführen des Scripts auf der Startseite von synOCR immer noch die Warnmeldung vorfinden, dann führt die Aufgabe mit dem Script ein paar Mal aus. Es kann sein, dass die entsprechenden Rechte nicht richtig gesetzt wurden.
Letzten Endes kann synOCR so automatisch in einem Ordner nachschauen, ob eine Aufgabe zu erledigen ist. Alternativ, wenn es schnell gehen muss, ist ein manuelles Starten möglich. Und wo wir bei den Ordnern sind, die ihr ja eh konfigurieren müsst: Achtet unbedingt darauf, die kompletten Pfade inkl. Volume (z.B. /volume1/…) einzutragen und achtet auf korrekte Groß- und Kleinschreibung.
Passe zunächst deine Installation in der Konfiguration an.
Für einen ordnungsgemäßen Betrieb von synOCR muss im DSM Aufgabenplaner eine neue Aufgabe erstellt werden.
Öffne dazu im DSM die Systemsteuerung
Aufgabenplaner
Schaltfläche Erstellen
geplante Aufgabe
Benutzerdefiniertes Skript
Registerkarte „Allgemein“:
Benutzer root
ein beliebiger Name unter Aufgabe
Haken bei aktiviert
Registerkarte „Zeitplan“:
hier gewünschtes Intervall (z. B. stündlich)
Registerkarte „Aufgabeneinstellungen“:
hier den nachstehenden Pfad hineinkopieren:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
Das ist der grobe Anriss, um OCR auf PDF-Dokumente anzuwenden, denen dies bislang fehlt. Habt ihr es bis hier hin geschafft, so dürfte folgendes passieren: Ihr werft ein PDF in Ordner X – und euer NAS macht daraus ein PDF mit OCR in Ordner Y.
Wer mag, der kann das Ganze aber noch eine Ecke weiterspinnen, denn es gibt auch Möglichkeiten der Weiterbearbeitung, beispielsweise beim Dateinamen. Dies steht alles in den Optionen zur Umbenennung, sodass ihr da gerne das für euch Passende heraussuchen könnt.
Warum wir dieses Thema hier anbringen: Ich hatte es schon 100x in den vergangenen Jahren, dass Menschen der Meinung waren, dass ihre PDF-Dateien durchsuchbar wären, nur weil IHR System diese durchsuchen kann. Klar, mein Mac oder meine Apple Notizen finden auch Text in Bildern oder PDF-Dateien, wenn diese nicht die OCR-Durchführung durchlaufen haben. Aber darf ich davon ausgehen, dass mein Gegenüber auch so ein Setup hat? Oder weiß ich, was ich in 10 Jahren nutze? Deshalb: Nein, ein Foto ist keine durchsuchbare PDF-Datei und auch eine mit Office Lens oder so erstellte Datei ist nicht überall durchsuchbar.
| # | Vorschau | Produkt | Preis | |
|---|---|---|---|---|
| 1 |
|
Brother ADS-1700W Mobiler Scanner ADS1700WUN1 A4/Duplex/WLAN/Farbe |
290,99 EUR |
Bei Amazon ansehen |
| 2 |
|
HP ScanJet Pro 2000 s2 (Scanner, Einzelblattzufuhr, 50-Blatt ADF, USB) |
232,99 EUR |
Bei Amazon ansehen |
| 3 |
|
Epson WorkForce ES-580W Scanner, Dokumentenscanner (scannt ohne PC, 35 Seiten... |
391,49 EUR |
Bei Amazon ansehen |
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
