Cos'è Tesseract OCR?

Tesseract è un motore OCR open source: alimenta molte pipeline WASM di browser e OCR di server.

Tesseract riconosce il testo nelle immagini scansionate e nelle pagine PDF: i pacchetti linguistici migliorano la precisione per DE, EN e oltre 100 script. La preelaborazione (raddrizzamento, contrasto) migliora i risultati.

Tentaco PDF OCR utilizza WASM OCR dove supportato: l'elaborazione rimane nella scheda per le scansioni sensibili. Per i PDF nati digitali con livelli di testo, utilizzare invece PDF in testo.

Strumenti correlati

pdf-ocr
Scansione in PDF: foto in documenti PDF
Da PDF a testo: estrai il livello di testo
complete-pdf-workflow

Termini correlati

PDF/A-3
OCR