Wat is Tesseract OCR?

Tesseract is een open-source OCR-engine die veel browser-WASM- en server-OCR-pijplijnen aanstuurt.

Tesseract herkent tekst in gescande afbeeldingen en PDF-pagina's - taalpakketten verbeteren de nauwkeurigheid voor DE, EN en meer dan 100 scripts. Voorbewerking (scheefstand, contrast) verbetert de resultaten.

Tentaco PDF OCR maakt gebruik van WASM OCR waar dit wordt ondersteund: de verwerking blijft op het tabblad voor gevoelige scans. Voor born-digital PDF's met tekstlagen gebruikt u in plaats daarvan PDF naar tekst.

Gerelateerde tools

pdf-ocr
Scannen naar PDF — foto's naar PDF-document
PDF naar tekst: tekstlaag extraheren
complete-pdf-workflow

Gerelateerde termen

PDF/A-3
OCR