программный доступ к содержанию PDF

Question

Многие документы PDF содержат иерархическое оглавление. Я не имею в виду ToC, видимый на странице - я имею в виду метаданные, которые используются для создания ссылок на боковую панель при просмотре PDF с помощью приложения, такого как Preview. Как я могу извлечь это? Я не ищу приложение с графическим интерфейсом, так как собираюсь извлекать эту информацию из многих документов с помощью скрипта.

score 0 · Answer 1 · 2011-03-09T19:38:42

Пакет Python pdfminer может извлечь эту информацию. Используйте скрипт dumppdf.py, который входит в пакет.

dumppdf.py -T /path/to/my/PDF

Производит XML оглавления.

ПРИМЕЧАНИЕ: кредит @krowe за ссылку на источник этого ответа в комментариях.

Сейчас выбран русский

программный доступ к содержанию PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf.

программный доступ к содержанию PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf.

Похожие