Возможный дубликат:
Как сравнить различия между двумя файлами PDF?
Есть ли какие-либо инструменты для выполнения сравнения двух файлов PDF? Или мне лучше просто извлечь текст и сравнить его в diff?
Возможный дубликат:
Как сравнить различия между двумя файлами PDF?
Есть ли какие-либо инструменты для выполнения сравнения двух файлов PDF? Или мне лучше просто извлечь текст и сравнить его в diff?
DiffPDF
DiffPDF используется для сравнения двух файлов PDF - текстового или визуального.
DiffPDF может сравнивать два файла PDF. Он предлагает три режима сравнения: слова, символы и внешний вид.
Portable Document Format (PDF) - это двоичный формат файла. Хотя в спецификации есть положения, чтобы не сжимать текст ASCII в файле (при условии, что текст выровнен по 8-битным границам), большинство файлов PDF по умолчанию сжимаются для экономии места (даже незначительно). По этой причине было бы невозможно напрямую diff
двоичные файлы (вероятно, весь файл будет изменен).
Самый простой и надежный способ, как подсказала ваша интуиция, - извлечь текст и сравнить его , используя diff
.