Извлечение текста из сложного PDF в Linux

Question

Как следует из названия, я хотел бы иметь возможность извлечь текст из документа PDF. Документы, которые я хочу проанализировать, являются расписаниями для спортивного события и в основном похожи на таблицы, отформатированные так:

A bunch of header info
athlete 1 5.31 (1) 38.24 (2) 57.94 (1) 42.13 120.50
          5.37 (2) 38.66 (2) 58.93 (5) 41.87 119.33
athlete 2 5.52 (5) 38.89 (4) 59.23 (7) 41.16 118.38
          5.43 (4) 38.98 (5) 59.52 (8) 41.61 117.30

Я пытался использовать pdftotext, но я не могу заставить его сохранить форматирование. Кажется, случайным образом размещать разрывы страниц. Например, я мог бы получить следующий вывод:

athlete 1 
5.31 (1)
5.37 (2)

38.24 (2)
38.66 (2) 


57.94 (1) 42.13 120.50
58.93 (5) 41.87 119.33

athlete 2
5.52 (5)
5.43 (4) 

38.89 (4)
38.98 (5)

59.23 (7) 41.16
59.52 (8) 41.61

118.38 
117.30

Кто-нибудь знает, как я мог бы извлечь каждую строку текста отдельно? Или, по крайней мере, указать мне в правильном направлении?

Спасибо!

score 1 · Answer 1 · 2011-03-09T19:38:42

Оказывается, я должен проверить справочную страницу для pdftotext. Использование параметра -layout отлично справляется с сохранением макета, как показано в исходном документе PDF:

pdftotext pdfinput.pdf output.txt -layout

Сейчас выбран русский

Извлечение текста из сложного PDF в Linux

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux pdf.

Извлечение текста из сложного PDF в Linux

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux pdf.

Похожие