Tesseract è un motore OCR open source: alimenta molte pipeline WASM di browser e OCR di server.
Tesseract riconosce il testo nelle immagini scansionate e nelle pagine PDF: i pacchetti linguistici migliorano la precisione per DE, EN e oltre 100 script. La preelaborazione (raddrizzamento, contrasto) migliora i risultati.
Tentaco PDF OCR utilizza WASM OCR dove supportato: l'elaborazione rimane nella scheda per le scansioni sensibili. Per i PDF nati digitali con livelli di testo, utilizzare invece PDF in testo.