У меня есть книга, которую я хочу прочитать на экране. Он сканируется в монохромном режиме с разрешением 200 точек на дюйм (я до сих пор не знаю, что пошло не так в драйвере сканера, я помню, что установил его в оттенках серого, но не могу позволить себе время для сканирования снова), поэтому его трудно читать. Я сделал это с помощью Acrobat Acrobat Pro, и все прошло достаточно хорошо. Но результатом является то, что называется "Поиск изображений" или "Clearscan". Мне нравится тот факт, что макет сохраняется, но проблема в том, что текст отображается так, как он был отсканирован, поэтому его трудно читать на экране. Кроме того, вся книга занимает 70 МБ.
Здесь вы можете увидеть, как выглядит уже распознанный текст:
Я пробовал другие программы оптического распознавания текста, но (помимо 100% процессорного времени и памяти в течение 2 минут на одну двойную страницу) все они распознавали текст, полностью исключая цифры. Меня не волнует макет и типография, но цифры важны (мне не нужны текстовые метки на изображениях для распознавания). И я думаю, что если бы он использовал ASCII для текста и изображения для рисунков, размер должен значительно упасть.
Так есть ли способ отбросить изображения текста и использовать версию OCRed для чтения, сохраняя рисунки на своих местах? Я бы предпочел, чтобы конечный результат был PDF-файлом, но я открыт и для других форматов. Я знаю, что мог бы сделать это вручную, вставив текст в формате OCR в слово и сделав снимки экрана с изображениями, но это слишком много для 520 страниц.