Tesseract 是一个开源 OCR 引擎 — 为许多浏览器 WASM 和服务器 OCR 管道提供支持。
Tesseract 可以识别扫描图像和 PDF 页面中的文本 - 语言包提高了 DE、EN 和 100 多种脚本的准确性。预处理(纠偏、对比度)可提高结果。
Tentaco PDF OCR 在支持的情况下使用 WASM OCR — 敏感扫描的处理保留在选项卡内。对于带有文本层的原生数字 PDF,请使用 PDF to Text。