У меня есть документ со многими страницами, которые имеют столбчатые таблицы, подобные следующим.
#1 2.1 This is some text. It can go onto the next line
like this.
#2 1.3 More text.
#3 3.2 And some more text that goes on to the next
line also.
#4 2.3 And some more text.
Когда я OCR документа, кажется, что OCR столбцы как отдельные блоки на некоторых страницах и других страницах других страниц, он захватывает весь текст как один большой блок. В этом примере, скажем, он захватил его в 4 блока, как показано на следующем рисунке.
Поэтому, когда я экспортирую (или копирую / вставляю), Acrobat экспортирует его в порядке блоков. Поэтому я получаю текст, подобный следующему.
#1
#2
#3
2.1
1.3
3.2
This is some text. It can go onto the next line
like this.
More text.
And some more text that goes on to the next
line also.
#4 2.3 And some more text.
Если я экспортирую в Word, макет выглядит нормально, но это потому, что Acrobat создал документ Word с разделами и столбцами. В этом случае секция из трех столбцов до конца строки № 3. Затем раздел из одного столбца для строки № 4. Поэтому при экспорте из Word в текст выдает тот же результат
Как я могу сказать Acrobat для OCR или экспортировать текст, используя простые left/right/top/down, чтобы я получал текст как исходный документ (как и мой первый пример)? Спасибо!
Системная информация:
macOS 10.12.5 (16F73)
Architecture: x86_64
Build: 17.9.20044.222436
AGM: 4.30.69
CoolType: 5.14.5
JP2K: 1.2.2.38123