Praktische Erfahrungen aus dem IT-Alltag

Schlagwort: ocr

Bessere tesseract-Trainingsdaten „tessdata_best“ in paperless-ngx (Docker) nutzen

paperless-ngx nutzt zur Texterkennung tesseract-ocr über OCRmyPDF. Für tesseract-ocr gibt es dabei zwei unterschiedliche Arten von Texterkennungs-Trainingsdaten (tessdata_fast, tessdata_best). Wobei die standardmäßig im paperless-ngx Docker-Image installierten immer die bereitgestellten „tessdata_fast“-Trainingsdaten sind. Diese sind zügig, aber haben auch eine höhere Fehlerrate in der Erkennung.

Um für paperless-ngx „tessdata_best“ zu nutzen, empfiehlt sich eine ganz simple Lösung: Wir laden die Trainingsdaten herunter, legen sie in ein Verzeichnis unserer Wahl und mounten sie in den paperless-ngx Container an der jeweilig korrekten Stelle:
(mehr …)

28. September 2025
In paperless-ngx signierte PDF-Dokumente trotz Signatur mit OCR importieren
Um in paperless-ngx Dokumente zu importieren und OCR (Texterkennung) über jene laufen zu lassen, bedarf es einer kleinen Anpassung in den paperless-ngx-Einstellungen. Ohne die Änderung verweigert paperless-ngx und die genutzten Drittanwendungen das Einlesen des Textes mit der Meldung:
```
[2025-09-28 12:06:12,786] [WARNING] [paperless.parsing.tesseract] This file is encrypted and/or signed, OCR is impossible. Using any text present in the original file.
[2025-09-28 12:06:12,786] [WARNING] [paperless.parsing.tesseract] No text was found in /tmp/paperless/paperless-ngxey73_jza/samplecertifiedpdf.pdf, the content will be empty.
```
Unter „Konfiguration“ -> Reiter „OCR-Einstellungen“ > „OCR-Argumente“ muss die folgende Option in JSON-Format eingefügt werden:
(mehr …)
28. September 2025

Schlagwort: ocr

Bessere tesseract-Trainingsdaten „tessdata_best“ in paperless-ngx (Docker) nutzen

In paperless-ngx signierte PDF-Dokumente trotz Signatur mit OCR importieren