Tesseract to silnik OCR typu open source — obsługujący wiele potoków OCR przeglądarek i serwerów.
Tesseract rozpoznaje tekst w zeskanowanych obrazach i stronach PDF — pakiety językowe zwiększają dokładność skryptów DE, EN i ponad 100. Wstępne przetwarzanie (przekos, kontrast) poprawia wyniki.
Tentaco PDF OCR korzysta z WASM OCR, jeśli jest obsługiwany — w przypadku wrażliwych skanów przetwarzanie pozostaje na karcie. W przypadku cyfrowych plików PDF z warstwami tekstowymi użyj zamiast tego opcji PDF na tekst.