Ситуация: есть большой файл PDF с несколькими сотнями статей (подумайте о книгах, технических характеристиках и т.д.). Без доступа к первоисточнику, как можно оглавление (ToC) план будет добавлен в файл PDF, состоящий из текста?
Этот вопрос аналогичен созданию содержания в PDF-файле отсканированной книги. Однако он ограничен отсканированными копиями книг, которые не конвертируются с помощью OCR. Этот вопрос конкретно о PDF-файлах, содержащих текст (и, возможно, несколько рисунков).
Примеры файлов PDF:
- http://www.oss.com/asn1/resources/books-whitepapers-pubs/asn1-books.html#larmouth
- http://www.acpi.info/DOWNLOADS/ACPIspec10.pdf
Эти файлы имеют ToC поверх файла, который может быть четко идентифицирован человеческим глазом. Разделы и главы в этих файлах также можно найти, посмотрев на предыдущий заголовок.
Как я могу определить ToC и добавить схему в документ? Ссылки на документацию формата файла (и тому подобное) также приветствуются, если они могут выполнить поставленную задачу.
(Подумайте о файлах PDF, созданных LaTeX, с включенным пакетом hyperref
.)