Я пытаюсь отсканировать пакет информации в серии документов Word. Первые несколько страниц являются частью индекса. Это выложено так:

Article VIII                                     13
    Section 1 .... Notice of Association         13
    Section 2 .... Notice of Unpaid Assessments  13
    Section 3 .... Notice of Other Notices       13
Article IX                                       14
    Section 1 .... Conflict of Interest          14
    Section 2 .... Blah blah                     15

Когда я открою отсканированные.TIF в MODI и скопируйте / вставьте его в Word, это выглядит так:

ARTICLE I.
Sect ion
Section
Sect ion
Sect ion
Sec;ion
Section
Section
Section
Section
Section
Sect ion
Section
ARTICLE II
Section 1.
Section 2.
Section 3.
Section 4.

В основном, это, кажется, преобразует пробелы и последовательные периоды в возврат каретки. Если бы он мог хотя бы сохранить положение разделов текста, используя табуляции или пробелы, то это было бы по крайней мере несколько удивительно.

2 ответа2

1

Насколько я знаю, MS Document Imaging не может захватить макет документа, но эти продукты могут:

  • Royalty Free OCR - Бесплатный, красивый инструмент.
  • NewOCR - бесплатно, онлайн.
  • ABBYY FineReader - действительно классное программное обеспечение, но не дешевое. Хотя есть испытание.
0

Я знаю, что это звучит как странный способ сделать это, но если у вас есть копия Adobe Acrobat, вы можете отсканировать ее как PDF, а затем сохранить PDF как документ Word. Я обнаружил, что это эффективный способ преобразования отсканированных документов в слова.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .