У меня возникла ситуация, когда я нашел тонну отсканированных файлов PDF. Эти PDF-файлы - фактически тонкие обертки по расточительному формату изображения. Каждый файл имеет размер несколько МБ. Общий размер архива превышает 1 ТБ. Я знаю, что не было никакой работы по распознаванию текста ... PDF-файлы содержат только изображения без текстового слоя или возможности поиска.
Я хотел бы уменьшить размер этого архива. Я знаю, что если бы у меня были оригинальные изображения, они бы легко сжимались с 3-6 МБ каждое до нескольких сотен КБ каждое без заметной потери качества ... уменьшение в 10 раз. Чего я не знаю, так это как вернуться из этих PDF-файлов к исходному изображению, как воссоздать PDF-файл из уменьшенного изображения (пользователю почему-то действительно нравится PDF) и как сделать все это в достаточно автоматизированной форме. путь.
В качестве дополнительной проблемы, есть несколько редких случаев, когда некоторые более новые PDF-файлы в архиве были взяты из отдельного файла и могут иметь текстовый слой с возможностью поиска, который мы не хотим потерять.
Любые идеи о том, как я могу эффективно обрабатывать эти файлы?