Tesseract OCRとは何ですか?

Tesseract はオープンソースの OCR エンジンであり、多くのブラウザ WASM およびサーバー OCR パイプラインを強化します。

Tesseract は、スキャンされた画像と PDF ページ内のテキストを認識します。言語パックにより、DE、EN、および 100 以上のスクリプトの精度が向上します。前処理 (デスキュー、コントラスト) により結果が向上します。

Tentaco PDF OCR は、サポートされている場合は WASM OCR を使用します。機密スキャンの場合、処理はタブ内に留まります。テキストレイヤーを含むボーンデジタル PDF の場合は、代わりに PDF to Text を使用してください。