2

У меня есть книга, которую я хочу прочитать на экране. Он сканируется в монохромном режиме с разрешением 200 точек на дюйм (я до сих пор не знаю, что пошло не так в драйвере сканера, я помню, что установил его в оттенках серого, но не могу позволить себе время для сканирования снова), поэтому его трудно читать. Я сделал это с помощью Acrobat Acrobat Pro, и все прошло достаточно хорошо. Но результатом является то, что называется "Поиск изображений" или "Clearscan". Мне нравится тот факт, что макет сохраняется, но проблема в том, что текст отображается так, как он был отсканирован, поэтому его трудно читать на экране. Кроме того, вся книга занимает 70 МБ.

Здесь вы можете увидеть, как выглядит уже распознанный текст:

Я пробовал другие программы оптического распознавания текста, но (помимо 100% процессорного времени и памяти в течение 2 минут на одну двойную страницу) все они распознавали текст, полностью исключая цифры. Меня не волнует макет и типография, но цифры важны (мне не нужны текстовые метки на изображениях для распознавания). И я думаю, что если бы он использовал ASCII для текста и изображения для рисунков, размер должен значительно упасть.

Так есть ли способ отбросить изображения текста и использовать версию OCRed для чтения, сохраняя рисунки на своих местах? Я бы предпочел, чтобы конечный результат был PDF-файлом, но я открыт и для других форматов. Я знаю, что мог бы сделать это вручную, вставив текст в формате OCR в слово и сделав снимки экрана с изображениями, но это слишком много для 520 страниц.

2 ответа2

3

В Omnipage 16, 17, 18 вы можете (лучший макет):

  • выбрать типы зон автоматически или вручную
  • настроить тип выбранной зоны, текст, изображение, таблица
  • вращать страницы
  • изменить двойные страницы на отдельные страницы
  • экспорт в pdf с оригинальным отсканированным изображением и без него (четче, легче для чтения)

Программа делает по требованию (лучшее признание).

  • выпрямить страницы
  • выпрямить линии

Omnipage 17, 18 действительно выпрямляют изогнутые страницы, неправильные углы от изображений цифровой камеры (крупные планы)

ABBYY 8,9,10 имеют те же функции, но дают меньше результатов для снимков с цифровых камер.

У ABBYY 10 есть отличная программа для чтения с экрана. При этом вы можете распознать текстовые части на вашем мониторе. Или даже выберите текст из онлайн-книг, таких как google books или sribd dot com. Поверните монитор вертикально и убедитесь, что текст имеет максимальный размер.

Infix работает для очистки распознанного PDF, экспортируемого как "текст с картинками". Простой способ удалить неправильно выбранную часть страницы без изображения и т.д. Также добавление страниц в PDF или удаление страниц.

Able2Abstract отлично подходит для распознавания таблиц. PDF2XL делает это тоже.

Scan Tailor - немного недружественный способ, но бесплатный, чтобы получить только черный текст из сканирования. Если вам не хватает частей страниц, снова установите размеры отдельных страниц.

С Abbyy также возможно получить черный текст и картинки. Здесь сохраненные рабочие файлы содержат страницы формата B+W. Вы можете скопировать их в другое место, стереть файлы в формате tumbfiles или метаданные и поместить файлы в формате MIFTIFIF или PDF. Этот файл больше, чем распознанный PDF.

Photoshop, Paint Shop Pro может помочь изменить изображение отсканированного текста, одну страницу или пакетный режим.

Paperport (не идеально) помогает сканировать, делает текст более черным при сканировании, исправляет текст и т.д. После сканирования, но работает только на отдельных страницах, помещает отдельные страницы в 1 pdf.

Букмекерство дорогое, но старшее, исправляет некоторые кривые страницы, почерневшие стороны могут быть стерты. Пробная версия имеет ограничения, но где-то скрытое что-то может быть экспортировано в TIFS, страницу за страницей.

Изменение параметров программного обеспечения сканера может дать лучший результат.

Фотосъемка книги на 500 страниц займет 1 час.

  • Использовать штатив
  • ISO 100 или 200
  • ручной баланс белого с белой книгой. (Или другая бумага, которая "более белая")
  • хороший свет, но не прямой солнечный свет
  • посмотрите на большие оттенки между страницами, переверните книгу на полпути, когда это необходимо
  • сделать несколько тестов
  • slr используйте более высокий f stop как 8 или 11 для лучшей глубины резкости
0

Лучшее, что я нашел, это, но мне бы хотелось услышать лучшее решение с помощью Acrobat.

После OCR вы можете выбрать текст, а затем изменить шрифт:

Щелкните правой кнопкой мыши на выделении и выберите свойства

перейдите на вкладку текста и выберите шрифт и размер шрифта.

К сожалению, это, как правило, также искажает компоновку как положения букв, так и межстрочный интервал.

Другая возможность - скопировать весь текст в текстовый редактор (например, word или openoffice), а затем полностью изменить макет всего текста ....

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .