O que é o Tesseract OCR?

Tesseract é um mecanismo de OCR de código aberto – alimenta muitos pipelines de WASM de navegador e OCR de servidor.

O Tesseract reconhece texto em imagens digitalizadas e páginas PDF – os pacotes de idiomas melhoram a precisão para DE, EN e mais de 100 scripts. O pré-processamento (desinclinação, contraste) aumenta os resultados.

Tentaco PDF OCR usa WASM OCR quando compatível - o processamento permanece na guia para digitalizações confidenciais. Para PDFs natos digitais com camadas de texto, use PDF to Text.

Ferramentas relacionadas

pdf-ocr
Digitalizar para PDF — fotos para documento PDF
PDF para texto – extraia a camada de texto
complete-pdf-workflow

Termos relacionados

PDF/A-3
OCR