Tesseract ist eine Open-Source-OCR-Engine – unterstützt viele Browser-WASM- und Server-OCR-Pipelines.
Tesseract erkennt Text in gescannten Bildern und PDF-Seiten – Sprachpakete verbessern die Genauigkeit für DE, EN und über 100 Skripte. Vorverarbeitung (Schräglage, Kontrast) verbessert die Ergebnisse.
Tentaco PDF OCR verwendet WASM OCR, sofern unterstützt – die Verarbeitung bleibt bei sensiblen Scans im Register. Für digitalisierte PDFs mit Textebenen verwenden Sie stattdessen „PDF to Text“.