4

Я хотел бы преобразовать документ PDF в набор HTML-страниц, которые имеют «чистую» разметку, и генерировать / хранить семантическую информацию (главы, разделы ...), а также выполнять задачи очистки (например, меня не интересует страница номера или повторяя название главы / документа на каждой странице).

Есть ли такая программа?

ура

2 ответа2

0

Я написал один, потому что он мне нужен был для моего сайта schooletc.co.uk, переводя сотни тысяч PDF-файлов в семантический HTML, не создавая большого беспорядка.

Вот мой репозиторий Github https://github.com/fmalina/transcript

Это двухэтапный процесс: сначала документы PDF обрабатываются с использованием PDFtoHTML(Ex), который создает разметку представления HTML, а затем документы обрабатываются с использованием transcript.py, создающего семантический HTML, включая заголовки, абзацы, списки и таблицы данных.

0

Калибр позволяет конвертировать pdf в формат htlmz, который представляет собой HTML-страницу с одним файлом и данными. если вы хотите использовать его для создания коллекции html-страниц, вам нужно сначала разбить pdf в зависимости от вашей операционной системы. Calibre работает на всех основных операционных системах, установите программу с http://calibre-ebook.com, импортируйте PDF, затем используйте опцию «конвертировать книги» из пользовательского интерфейса и выберите формат htmlz. Есть несколько страниц настроек, которые можно изменить, чтобы получить конечный результат

Существует также интерфейс командной строки, если вы хотите написать скрипт.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .