Преобразование PDF-файлов в HTML с помощью pdf2htmlEX: можно ли использовать выходные данные для анализа html?

Question

Я реализую некоторый алгоритм синтаксического анализа и для этого мне нужно конвертировать pdfs в html, и я выбрал pdf2htmlEX для этой цели. Я хочу проанализировать данные на основе заголовков и параграфов.

Библиотека pdf2HTMLEx прекрасно работает с точки зрения UX, но созданный текст HTML полон тегов <span> и <div> и может привести к затруднениям для понимания, так как он не очень читабелен и не содержит каких-либо тегов заголовка и т.д.

Как это:

1. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market  </div>

Мои вопросы:

Как я могу отделить каждый заголовок вместе с его абзацами из него?
Есть ли способ сделать это с помощью pdf2htmlEX?

score 0 · Answer 1 · 2011-03-09T19:38:42

Я попробовал то же самое для разбора банковских выписок. Для меня лучше всего было не конвертировать в HTML, а конвертировать вывод в XML.

Удивительно, но вы можете использовать ту же команду:

pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>

Однако я использовал стандартную (Linux) версию pdftohtml . Я не знаю, является ли используемый вами вариант полностью обратно совместимым.

Сейчас выбран русский

Преобразование PDF-файлов в HTML с помощью pdf2htmlEX: можно ли использовать выходные данные для анализа html?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками html css pdf.

Преобразование PDF-файлов в HTML с помощью pdf2htmlEX: можно ли использовать выходные данные для анализа html?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками html css pdf.

Похожие