Я реализую некоторый алгоритм синтаксического анализа и для этого мне нужно конвертировать pdfs в html, и я выбрал pdf2htmlEX для этой цели. Я хочу проанализировать данные на основе заголовков и параграфов.
Библиотека pdf2HTMLEx прекрасно работает с точки зрения UX, но созданный текст HTML полон тегов <span>
и <div>
и может привести к затруднениям для понимания, так как он не очень читабелен и не содержит каких-либо тегов заголовка и т.д.
Как это:
1. The model of perfect competition is more useful for analy <span class="_ _0"> <span>zing situations in which firms <span class="_ _1"></span> </div><div class="t m0 x5 h2 y35 ff2 fs1 fc0 sc0 ls1 ws0">a. engage in price wars in order to secure a position in the market </div>
Мои вопросы:
- Как я могу отделить каждый заголовок вместе с его абзацами из него?
- Есть ли способ сделать это с помощью pdf2htmlEX?