什么是 Tesseract OCR？

Tesseract 是一个开源 OCR 引擎 — 为许多浏览器 WASM 和服务器 OCR 管道提供支持。

Tesseract 可以识别扫描图像和 PDF 页面中的文本 - 语言包提高了 DE、EN 和 100 多种脚本的准确性。预处理（纠偏、对比度）可提高结果。

Tentaco PDF OCR 在支持的情况下使用 WASM OCR — 敏感扫描的处理保留在选项卡内。对于带有文本层的原生数字 PDF，请使用 PDF to Text。