Caschys Blog

OCR von PDF-Dokumenten auf dem Synology-NAS

Kleiner Tipp für alle Besitzer eines Synology-NAS. Die Geräte eignen sich ja mittlerweile zu viel mehr als zum Speichern von Daten, da gibt es ja diverse Dienste und Services, die man nutzen kann. Bei mir ist unter anderem der Medienserver Plex im Einsatz, aber auch Homebridge für das Smart Home. Homebridge setzt Docker voraus und sofern euer NAS Docker-kompatibel ist, könnt ihr euch Folgendes bei Interesse anschauen: synOCR.

Das ist eine Oberfläche für eine Texterkennungs-Software namens OCRmyPDF, um PDF-Dokumente durchsuchbar zu machen. Ihr kennt das sicher: Manche PDF-Dokumente sind durchsuchbar, manche nicht. Ich für meinen Teil möchte sie durchsuchbar haben, damit ich meine Dokumente, bzw. deren Inhalte schnell finde. Persönlich setze ich seit Jahren nicht auf einen Dokumentenscanner, mir reicht das Smartphone. Da gibt es diverse Apps mit OCR-Unterstützung, ich selber nutze Scanbot Pro.

Ich habe keine Datenbank-Software, lege also nur Dokumente in Ordnern ab. Suche ich etwas, so finde ich dies anhand von Ordnern oder eben OCR. synOCR (übrigens Open Source) eignet sich für alle, die viele, nicht „OCRte“ Dokumente haben und diese mit dieser versehen wollen. Das Modul kann manuell installiert werden, alternativ über das Hinzufügen einer zusätzlichen Paketquelle.

Die vorzunehmenden Einstellungen sind simpel: Man hinterlegt einen Ordner, in den man Dokumente ohne OCR reinwirft und einen, wo sie wieder mit OCR hereingelegt werden. Wer mag, der kann eine automatische Überwachung dieser Ordner aktivieren. Ich selber habe mir für diesen Beitrag nur den manuellen Schalter angeschaut. Funktionierte alles ganz gut. Wichtig ist: Der erste Vorgang dauert länger.

Dies liegt daran, dass synOCR beim ersten Vorgang das benötigte Docker-Image OCRmyPDF herunterlädt und einhängt. Später geht das schneller, dann wird das Image nur kurz gestartet und am Ende wieder gestoppt. In der Software gibt es noch ein paar Einstellungsmöglichkeiten, so kann man beispielsweise gewisse Dokumente ausschließen, ein Blick lohnt sich also.

Hier ein paar generelle Links zum Thema:

synOCR Downloadseite

synOCR Forum

ScanSnap iX1500 angeschaut – Der Helfer beim Aufbau des papierlosen Büros

PDF oder Bilder: OCR-Texterkennung nachträglich

PDFify: Verkleinert nun PDF-Dateien und importiert direkt über die iPhone-Cam Inhalte

Synology Drive: PDF-Dokumente durchsuchen

Howto: PDF-Dokumente kostenlos unter Windows per Stempel-Werkzeug unterzeichnen

Dokumente mit Notiz-App scannen und unterschreiben

Vorschau-App unter OS X: PDF unterschreiben

Aktuelle Beiträge

Die mobile Version verlassen