Tesseract is een open-source OCR-engine die veel browser-WASM- en server-OCR-pijplijnen aanstuurt.
Tesseract herkent tekst in gescande afbeeldingen en PDF-pagina's - taalpakketten verbeteren de nauwkeurigheid voor DE, EN en meer dan 100 scripts. Voorbewerking (scheefstand, contrast) verbetert de resultaten.
Tentaco PDF OCR maakt gebruik van WASM OCR waar dit wordt ondersteund: de verwerking blijft op het tabblad voor gevoelige scans. Voor born-digital PDF's met tekstlagen gebruikt u in plaats daarvan PDF naar tekst.