Tesseract — это механизм OCR с открытым исходным кодом, который поддерживает многие конвейеры OCR браузера WASM и сервера.
Tesseract распознает текст в отсканированных изображениях и страницах PDF — языковые пакеты повышают точность для DE, EN и более 100 скриптов. Предварительная обработка (устранение перекосов, контрастность) улучшает результаты.
Tentaco PDF OCR использует WASM OCR там, где это поддерживается — обработка конфиденциальных сканирований остается неизменной. Для цифровых PDF-файлов с текстовыми слоями вместо этого используйте PDF в текст.