Qu’est-ce que Tesseract OCR ?

Tesseract est un moteur OCR open source qui alimente de nombreux pipelines WASM de navigateur et OCR de serveur.

Tesseract reconnaît le texte des images numérisées et des pages PDF : les modules linguistiques améliorent la précision des scripts DE, EN et plus de 100. Le prétraitement (réalignement, contraste) améliore les résultats.

Tentaco PDF OCR utilise WASM OCR lorsqu'il est pris en charge — le traitement reste dans l'onglet pour les analyses sensibles. Pour les PDF nés numériques avec des calques de texte, utilisez plutôt PDF to Text.

Outils associés

pdf-ocr
Numériser vers PDF : photos vers un document PDF
PDF to Text : extraire le calque de texte
complete-pdf-workflow

Termes associés

PDF/A-3
ROC