Co to jest Tesseract OCR?

Tesseract to silnik OCR typu open source — obsługujący wiele potoków OCR przeglądarek i serwerów.

Tesseract rozpoznaje tekst w zeskanowanych obrazach i stronach PDF — pakiety językowe zwiększają dokładność skryptów DE, EN i ponad 100. Wstępne przetwarzanie (przekos, kontrast) poprawia wyniki.

Tentaco PDF OCR korzysta z WASM OCR, jeśli jest obsługiwany — w przypadku wrażliwych skanów przetwarzanie pozostaje na karcie. W przypadku cyfrowych plików PDF z warstwami tekstowymi użyj zamiast tego opcji PDF na tekst.

Powiązane narzędzia

pdf-ocr
Skanuj do pliku PDF — zdjęcia do dokumentu PDF
PDF na tekst — wyodrębnij warstwę tekstową
complete-pdf-workflow

Powiązane terminy

PDF/A-3
OCR