Paperless-AI: KI-gestützte Dokumentenverwaltung für Paperless-ngx
Das papierlose Büro kann man heutzutage mit etlichen Tools erreichen, Paperless-ngx ist eines davon. Doch es ist nicht immer alles Gold, was glänzt. Die manuelle Verschlagwortung und Kategorisierung von Dokumenten kann ordentlich Zeit in Anspruch nehmen. Mit dem OpenSource-Tool Paperless-AI gibt es eine spannende Lösung, die künstliche Intelligenz in den Dokumenten-Workflow integriert.
Die als Docker-Container bereitgestellte Erweiterung analysiert neue Dokumente automatisch und extrahiert wichtige Informationen wie Absender, relevante Tags und sinnvolle Titel. Dabei habt ihr die Wahl zwischen der OpenAI API oder lokalen Modellen wie Mistral, Llama, Phi 3 oder Gemma 2 via Ollama – besonders interessant für alle, die ihre Dokumente nicht in die Cloud schicken möchten. Logisch: Wer auf lokale Modelle setzt, sollte entsprechende Rechenpower bereitstellen. Mittlerweile entpuppt sich da der Basis-Mac-Mini als echte Alternative für den Heimserver – natürlich, nur wenn man mehr macht als Pihole etc.
Die Einrichtung gestaltet sich dank Docker sehr einfach. Nach dem Start erreicht ihr die moderne Weboberfläche über Port 3000. Hier wartet ein übersichtliches Dashboard, das euch den Status der Dokumentenverarbeitung, Systemstatistiken und die KI-Token-Nutzung anzeigt. Die gesamte Konfiguration erfolgt über die Setup-Oberfläche, wo ihr die Verbindung zu Paperless-ngx einrichtet (dazu benötigt ihr den Paperless-API-Token aus eurem Profil, die URL und Co.) und das gewünschte KI-Modell auswählt.
Ihr könnt festlegen, wie oft nach neuen Dokumenten gesucht werden soll und ob die KI nur bestimmte Dokumente verarbeiten soll. Auch die Erstellung neuer Tags kann eingeschränkt werden. Verarbeitete Dokumente werden auf Wunsch automatisch mit einem speziellen AI-Tag markiert. Dazu könnt ihr der AI verklickern, wie sie sich verhalten soll. Das sieht bei mir so aus:
You are a personalized document analyzer. Your task is to analyze documents and extract relevant information.
Analyze the document content and extract the following information into a structured JSON object:
1. title: Create a concise, meaningful title for the document
2. correspondent: Identify the sender/institution but do not include addresses
3. tags: Select up to 6 relevant thematic tags
4. document_date: Extract the document date (format: DD-MM-YYYY)
5. language: Determine the document language (e.g. „de“ or „en“)Important rules for the analysis:
For tags:
– FIRST check the existing tags before suggesting new ones
– Use only relevant categories
– Maximum 4 tags per document, less if sufficient (at least 1)
– Avoid generic or too specific tags
– Use only the most important information for tag creation
– The output language is the one used in the document! IMPORTANT!For the title:
– Short and concise, NO ADDRESSES
– Contains the most important identification features
– For invoices/orders, mention invoice/order number if available
– The output language is the one used in the document! IMPORTANT!For the correspondent:
– Identify the sender or institution
– When generating the correspondent, always create the shortest possible form of the company name (e.g. „Amazon“ instead of „Amazon EU SARL, German branch“)For the document date:
– Extract the date of the document
– Use the format YYYY-MM-DD
– If multiple dates are present, use the most relevant oneFor the language:
– Determine the document language
– Use language codes like „de“ for German or „en“ for English
– If the language is not clear, use „und“ as a placeholder
Neben der automatischen Verarbeitung bietet Paperless-AI auch eine manuelle Analyse-Funktion. Hier könnt ihr einzelne Dokumente gezielt von der KI analysieren lassen und die Vorschläge vor der Übernahme prüfen. Eine weitere Funktion ist der integrierte Chat: Hier beantwortet die KI Fragen zu euren Dokumenten, die in Paperless hinterlegt – praktisch, wenn ihr bestimmte Informationen sucht oder Zusammenhänge verstehen wollt. Ob man das am Ende wirklich nutzt, muss jeder selbst durchdenken.
Für Administratoren gibt es ein Debug-Interface unter /debug, das bei der Fehlersuche hilft. Das System überwacht sich zudem selbst und startet bei Problemen automatisch neu. Eure Einstellungen und Verarbeitungsdaten werden in einer lokalen Datenbank gespeichert, die sich bei Bedarf ebenfalls sichern lässt.
Wichtig: Da Paperless-AI direkte Änderungen an euren Dokumenten in Paperless-ngx vornimmt, solltet ihr vor dem ersten Einsatz unbedingt ein Backup erstellen. Kann ja immer mal was schiefgehen.
Die Erweiterung überzeugt durch ihre durchdachten Features und die einfache Integration. Besonders für größere Dokumentensammlungen kann sie den Verwaltungsaufwand deutlich reduzieren. Die Wahlmöglichkeit zwischen Cloud- und lokaler KI macht das Tool dabei für verschiedene Anforderungen interessant. Solltet ihr paperless-ngx nutzen, dann schaut ruhig mal rein.
# | Vorschau | Produkt | Preis | |
---|---|---|---|---|
1 | Synology Diskstation DS124 NAS System | 149,90 EUR | Bei Amazon ansehen | |
2 | Synology DS223J 2 Bay Desktop NAS, weiß | 218,19 EUR | Bei Amazon ansehen | |
3 | Synology 4-Bay DS423+ - Celeron J4125 schwarz | 519,00 EUR | Bei Amazon ansehen |
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Interessant, automatische Datensortierung sollte standardmäßig in macOS integriert sein statt dieser unnötigen AI Spielereien in der Notes app.
Ich habe Paperless-AI ausprobiert und bin nicht überzeugt. Zumindest mein Stand von vor 3 Wochen ist, dass der Prozess quasi automatisch erfolgt. Man vergibt den Tag und muss dann mit dem Ergebnis leben. Da kommen dann auch neue und ganz kuriose und teils viel zu sehr ins Detail gehende Tags raus, mit denen man nichts anfangen kann. Und das obwohl man dem Prompt angibt, es soll keine neuen Tags erschaffen.
Daneben gibt es noch das Projekt „Paperless-GPT“, welches das Thema wesentlich eleganter löst und auch via Docker installiert wird. Alle mit Tags versehenen Dokumente werden dort angezeigt und Vorschläge gemacht. Außerdem kann man einstellen, ob neue Tags vergeben werden oder ob vorhandene verwendet werden.
Verstehe nicht wofür das wirklich gut sein soll. Paperless-ngx hat doch eine Volltextsuche dabei, sobald man mehrere Begriffe im Suchfeld eingibt und auf Erweiterte Suche umschaltet werden doch alle Dokumente mit den passenden Wörtern sehr schnell gefunden. Damit kann man auch ganz schnell Dokumenten nochmals zusätzliche Tags geben, die man vielleicht am Anfang noch nicht hatte. Mit zu vielen Schlagwörtern/Tags kann man sich auch selbst das Leben schwer machen. Auch ohne Ki habe ich bis jetzt immer sehr schnell die Dokumente gefunden die ich gesucht habe, es sei denn ich habe diese vergessen einzuscannen 🙁
Steht doch oben, wofür das gut sein soll.