1

У меня есть документ со многими страницами, которые имеют столбчатые таблицы, подобные следующим.

#1  2.1  This is some text. It can go onto the next line
         like this.
#2  1.3  More text.
#3  3.2  And some more text that goes on to the next
         line also.

#4  2.3  And some more text.

Когда я OCR документа, кажется, что OCR столбцы как отдельные блоки на некоторых страницах и других страницах других страниц, он захватывает весь текст как один большой блок. В этом примере, скажем, он захватил его в 4 блока, как показано на следующем рисунке.

Поэтому, когда я экспортирую (или копирую / вставляю), Acrobat экспортирует его в порядке блоков. Поэтому я получаю текст, подобный следующему.

#1
#2
#3
2.1
1.3
3.2
This is some text. It can go onto the next line
like this.
More text.
And some more text that goes on to the next
line also.

#4  2.3  And some more text.

Если я экспортирую в Word, макет выглядит нормально, но это потому, что Acrobat создал документ Word с разделами и столбцами. В этом случае секция из трех столбцов до конца строки № 3. Затем раздел из одного столбца для строки № 4. Поэтому при экспорте из Word в текст выдает тот же результат

Как я могу сказать Acrobat для OCR или экспортировать текст, используя простые left/right/top/down, чтобы я получал текст как исходный документ (как и мой первый пример)? Спасибо!

Системная информация:

macOS 10.12.5 (16F73)  
Architecture: x86_64  
Build: 17.9.20044.222436  
AGM: 4.30.69  
CoolType: 5.14.5  
JP2K: 1.2.2.38123  

0