2

Ситуация: есть большой файл PDF с несколькими сотнями статей (подумайте о книгах, технических характеристиках и т.д.). Без доступа к первоисточнику, как можно оглавление (ToC) план будет добавлен в файл PDF, состоящий из текста?

Этот вопрос аналогичен созданию содержания в PDF-файле отсканированной книги. Однако он ограничен отсканированными копиями книг, которые не конвертируются с помощью OCR. Этот вопрос конкретно о PDF-файлах, содержащих текст (и, возможно, несколько рисунков).

Примеры файлов PDF:

Эти файлы имеют ToC поверх файла, который может быть четко идентифицирован человеческим глазом. Разделы и главы в этих файлах также можно найти, посмотрев на предыдущий заголовок.

Как я могу определить ToC и добавить схему в документ? Ссылки на документацию формата файла (и тому подобное) также приветствуются, если они могут выполнить поставленную задачу.

(Подумайте о файлах PDF, созданных LaTeX, с включенным пакетом hyperref .)

0