Tesseract est un moteur OCR open source qui alimente de nombreux pipelines WASM de navigateur et OCR de serveur.
Tesseract reconnaît le texte des images numérisées et des pages PDF : les modules linguistiques améliorent la précision des scripts DE, EN et plus de 100. Le prétraitement (réalignement, contraste) améliore les résultats.
Tentaco PDF OCR utilise WASM OCR lorsqu'il est pris en charge — le traitement reste dans l'onglet pour les analyses sensibles. Pour les PDF nés numériques avec des calques de texte, utilisez plutôt PDF to Text.