Tesseract はオープンソースの OCR エンジンであり、多くのブラウザ WASM およびサーバー OCR パイプラインを強化します。
Tesseract は、スキャンされた画像と PDF ページ内のテキストを認識します。言語パックにより、DE、EN、および 100 以上のスクリプトの精度が向上します。前処理 (デスキュー、コントラスト) により結果が向上します。
Tentaco PDF OCR は、サポートされている場合は WASM OCR を使用します。機密スキャンの場合、処理はタブ内に留まります。テキストレイヤーを含むボーンデジタル PDF の場合は、代わりに PDF to Text を使用してください。