Я реализую некоторый алгоритм синтаксического анализа и для этого мне нужно конвертировать pdfs в html, и я выбрал pdf2htmlEX для этой цели. Я хочу проанализировать данные на основе заголовков и параграфов.

Библиотека pdf2HTMLEx прекрасно работает с точки зрения UX, но созданный текст HTML полон тегов <span> и <div> и может привести к затруднениям для понимания, так как он не очень читабелен и не содержит каких-либо тегов заголовка и т.д.

Как это:

1. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market  </div>

Мои вопросы:

  1. Как я могу отделить каждый заголовок вместе с его абзацами из него?
  2. Есть ли способ сделать это с помощью pdf2htmlEX?

1 ответ1

0

Я попробовал то же самое для разбора банковских выписок. Для меня лучше всего было не конвертировать в HTML, а конвертировать вывод в XML.

Удивительно, но вы можете использовать ту же команду:

pdftohtml -s -xml -enc "UTF-8" <infile> <outfile>

Однако я использовал стандартную (Linux) версию pdftohtml . Я не знаю, является ли используемый вами вариант полностью обратно совместимым.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .