Я хотел бы объединить документы PDF без потери какой-либо информации (передискретизация изображений и т.д.). Я только хочу делать сжатия без потерь, объединять шрифты и т.д.
Перед слиянием я хотел бы удалить первую и последнюю страницу каждого документа. Как я могу объединить это с процессом слияния, чтобы мне не нужно было запускать каждый файл дважды через gs?
Чтобы объединить, я использую команду из этого превосходного ответа. Я добавил dPDFSETTINGS =\prepress. Я не уверен, если это необходимо или хорошая идея.
gs \
-o book.pdf \
-sDEVICE=pdfwrite \
-dPDFSETTINGS=/prepress \
-dColorConversionStrategy=/LeaveColorUnchanged \
-dEncodeColorImages=false \
-dEncodeGrayImages=false \
-dEncodeMonoImages=false \
title.pdf \
content.pdf
Обновить:
Я попробовал команду выше (без удаления страниц) на некоторых реальных файлах, и она работает очень медленно.
gswin32c.exe -dBATCH -dNOPAUSE -o temp.pdf -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress -dColorConve
rsionStrategy=/LeaveColorUnchanged -dEncodeColorImages=false -dEncodeGrayImages=false -dEncodeMonoImages=false [list of pdf files] pdfmark
Выполнение вышеуказанной команды для 20 файлов размером 2 МБ создает почти 2 ГБ временных файлов, а затем выполняется очень медленно с небольшим использованием ЦП и большой нагрузкой на жесткий диск. Это занимает около 20 минут, а размер выходного файла составляет 800 МБ.
Я получаю это сообщение об ошибке: GPL Ghostscript 9.10: Отсутствует глиф CID = 0, глиф = 0028 в шрифте HiddenHorzOCR. Вывод PDF может не получиться у некоторых зрителей.
С другой стороны, pdftk запускается за 30 секунд, а размер выходного файла составляет 40 МБ. Добавление закладок с помощью gs занимает еще одну минуту и уменьшает размер файла до 30 МБ.
gswin32c.exe -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -sOutputFile=out.pdf pdftk.pdf pdfmark
Есть ли недостатки использования pdftk? Я хотел бы сохранить изображения точно такого же качества, не теряя деталей и не делая файлы чрезмерно большими. В противном случае меня это не сильно волнует, PDF-файлы в основном представляют собой отсканированные научные статьи и главы из книг. Страницы, которые я хотел бы удалить, являются титульными страницами, которые были отсканированы с каждой статьей, одна спереди и одна в конце.