Семантическое преобразование PDF в HTML

Question

Я хотел бы преобразовать документ PDF в набор HTML-страниц, которые имеют «чистую» разметку, и генерировать / хранить семантическую информацию (главы, разделы ...), а также выполнять задачи очистки (например, меня не интересует страница номера или повторяя название главы / документа на каждой странице).

Есть ли такая программа?

ура

score 0 · Answer 1 · 2011-03-09T19:38:42

Я написал один, потому что он мне нужен был для моего сайта schooletc.co.uk, переводя сотни тысяч PDF-файлов в семантический HTML, не создавая большого беспорядка.

Вот мой репозиторий Github https://github.com/fmalina/transcript

Это двухэтапный процесс: сначала документы PDF обрабатываются с использованием PDFtoHTML(Ex), который создает разметку представления HTML, а затем документы обрабатываются с использованием transcript.py, создающего семантический HTML, включая заголовки, абзацы, списки и таблицы данных.

score 0 · Answer 2 · 2011-03-09T19:38:42

Калибр позволяет конвертировать pdf в формат htlmz, который представляет собой HTML-страницу с одним файлом и данными. если вы хотите использовать его для создания коллекции html-страниц, вам нужно сначала разбить pdf в зависимости от вашей операционной системы. Calibre работает на всех основных операционных системах, установите программу с http://calibre-ebook.com, импортируйте PDF, затем используйте опцию «конвертировать книги» из пользовательского интерфейса и выберите формат htmlz. Есть несколько страниц настроек, которые можно изменить, чтобы получить конечный результат

Существует также интерфейс командной строки, если вы хотите написать скрипт.

Сейчас выбран русский

Семантическое преобразование PDF в HTML

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf conversion html.

Семантическое преобразование PDF в HTML

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf conversion html.

Похожие