Tesseract — це механізм оптичного розпізнавання тексту з відкритим вихідним кодом, який підтримує багато конвеєрів WASM у браузері та сервера.
Tesseract розпізнає текст у відсканованих зображеннях і PDF-сторінках — мовні пакети підвищують точність для DE, EN і 100+ скриптів. Попередня обробка (вирівнювання, контраст) покращує результати.
Tentaco PDF OCR використовує WASM OCR там, де це підтримується — обробка залишається у вкладці для конфіденційних сканувань. Для цифрових PDF-файлів із текстовими шарами використовуйте натомість PDF-текст.