Schlagwort-Archive: ocr

Bessere tesseract-Trainingsdaten „tessdata_best“ in paperless-ngx (Docker) nutzen

paperless-ngx nutzt zur Texterkennung tesseract-ocr über OCRmyPDF. Für tesseract-ocr gibt es dabei zwei unterschiedliche Arten von Texterkennungs-Trainingsdaten (tessdata_fast, tessdata_best). Wobei die standardmäßig im paperless-ngx Docker-Image installierten immer die bereitgestellten „tessdata_fast“-Trainingsdaten sind. Diese sind zügig, aber haben auch eine höhere Fehlerrate in der Erkennung.

Um für paperless-ngx „tessdata_best“ zu nutzen, empfiehlt sich eine ganz simple Lösung: Wir laden die Trainingsdaten herunter, legen sie in ein Verzeichnis unserer Wahl und mounten sie in den paperless-ngx Container an der jeweilig korrekten Stelle:

Bessere tesseract-Trainingsdaten „tessdata_best“ in paperless-ngx (Docker) nutzen weiterlesen

In paperless-ngx signierte PDF-Dokumente trotz Signatur mit OCR importieren

Um in paperless-ngx Dokumente zu importieren und OCR (Texterkennung) über jene laufen zu lassen, bedarf es einer kleinen Anpassung in den paperless-ngx-Einstellungen. Ohne die Änderung verweigert paperless-ngx und die genutzten Drittanwendungen das Einlesen des Textes mit der Meldung:

Unter „Konfiguration“ -> Reiter „OCR-Einstellungen“ > „OCR-Argumente“ muss die folgende Option in JSON-Format eingefügt werden:

In paperless-ngx signierte PDF-Dokumente trotz Signatur mit OCR importieren weiterlesen