Co je Tesseract OCR?

Tesseract je open-source OCR engine — pohání mnoho WASM prohlížečů a serverových OCR kanálů.

Tesseract rozpoznává text v naskenovaných obrázcích a stránkách PDF — jazykové balíčky zlepšují přesnost pro DE, EN a 100+ skriptů. Předběžné zpracování (vyrovnání zešikmení, kontrast) zvyšuje výsledky.

Tentaco PDF OCR používá WASM OCR tam, kde je podporováno – zpracování zůstává u citlivých skenů na kartě. Pro původní digitální PDF s textovými vrstvami použijte místo toho PDF na text.