1

Многие документы PDF содержат иерархическое оглавление. Я не имею в виду ToC, видимый на странице - я имею в виду метаданные, которые используются для создания ссылок на боковую панель при просмотре PDF с помощью приложения, такого как Preview. Как я могу извлечь это? Я не ищу приложение с графическим интерфейсом, так как собираюсь извлекать эту информацию из многих документов с помощью скрипта.

1 ответ1

0

Пакет Python pdfminer может извлечь эту информацию. Используйте скрипт dumppdf.py, который входит в пакет.

dumppdf.py -T /path/to/my/PDF

Производит XML оглавления.

ПРИМЕЧАНИЕ: кредит @krowe за ссылку на источник этого ответа в комментариях.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .