Schlagwort-Archive: paperless-ngx

Bessere tesseract-Trainingsdaten „tessdata_best“ in paperless-ngx (Docker) nutzen

paperless-ngx nutzt zur Texterkennung tesseract-ocr über OCRmyPDF. Für tesseract-ocr gibt es dabei zwei unterschiedliche Arten von Texterkennungs-Trainingsdaten (tessdata_fast, tessdata_best). Wobei die standardmäßig im paperless-ngx Docker-Image installierten immer die bereitgestellten „tessdata_fast“-Trainingsdaten sind. Diese sind zügig, aber haben auch eine höhere Fehlerrate in der Erkennung.

Um für paperless-ngx „tessdata_best“ zu nutzen, empfiehlt sich eine ganz simple Lösung: Wir laden die Trainingsdaten herunter, legen sie in ein Verzeichnis unserer Wahl und mounten sie in den paperless-ngx Container an der jeweilig korrekten Stelle:

Bessere tesseract-Trainingsdaten „tessdata_best“ in paperless-ngx (Docker) nutzen weiterlesen