Tesseract는 오픈 소스 OCR 엔진으로, 많은 브라우저 WASM 및 서버 OCR 파이프라인을 지원합니다.
Tesseract는 스캔한 이미지와 PDF 페이지의 텍스트를 인식합니다. 언어 팩은 DE, EN 및 100개 이상의 스크립트에 대한 정확성을 향상시킵니다. 전처리(기울기, 대비)를 통해 결과가 향상됩니다.
Tentaco PDF OCR은 지원되는 경우 WASM OCR을 사용합니다. 민감한 스캔을 위해 탭 내에서 처리가 유지됩니다. 텍스트 레이어가 포함된 디지털 기반 PDF의 경우 PDF를 텍스트로 대신 사용하세요.