Существует ли инструмент командной строки для Linux, который позволяет мне извлекать все объекты растрового изображения / подтипа / изображения из PDF-файла, позволяет обрабатывать их с помощью другого стороннего инструмента, а затем может повторно вставлять их в исходный PDF-файл?
Пакет poppler-utils Debian содержит инструмент pdfimages, который позволяет мне извлечь все изображения из PDF, но я не могу легко вставить их в PDF после того, как я их изменил.
Я уже писал простые парсеры для PDF, так что мой текущий взгляд на эту проблему будет
- запустите pdfclean (из пакета mupdf) в PDF, чтобы распаковать все потоки и тем самым упростить анализ
- проанализировать PDF с помощью простого парсера (конечно, он не сможет анализировать большинство PDF, но пока он работает для моего PDF, я счастлив) и извлечь все изображения в виде растровых изображений с идентификатором объекта в их имени
- поищите изображения с помощью сторонней программы
- снова проанализируйте исходный pdf, но на этот раз замените изображения внутри измененными, адаптируя /Length и /Filter по мере необходимости
- снова запустите pdfclean, чтобы исправить все смещения в таблице внешних ссылок
Но может быть, инструмент, который позволяет все это и не ограничивается возможностями простого парсера, написанного мной, уже существует?
Если вы говорите, что такого инструмента не существует, то можно также сообщить мне библиотеку, которая позволяет извлекать и позже заменять изображения.