Я хотел бы преобразовать документ PDF в набор HTML-страниц, которые имеют «чистую» разметку, и генерировать / хранить семантическую информацию (главы, разделы ...), а также выполнять задачи очистки (например, меня не интересует страница номера или повторяя название главы / документа на каждой странице).
Есть ли такая программа?
ура