Tesseract es un motor de OCR de código abierto que impulsa muchos canales de OCR de servidores y WASM de navegadores.
Tesseract reconoce texto en imágenes escaneadas y páginas PDF: los paquetes de idiomas mejoran la precisión para DE, EN y más de 100 escrituras. El preprocesamiento (enderezamiento, contraste) mejora los resultados.
Tentaco PDF OCR utiliza WASM OCR cuando sea compatible: el procesamiento permanece en la pestaña para escaneos confidenciales. Para archivos PDF digitales con capas de texto, utilice PDF a texto en su lugar.