У меня есть куча файлов PDF, которые представляют собой статьи, загруженные с различных веб-сайтов журнала. Проблема в том, что некоторые из этих файлов PDF являются дубликатами друг друга. Тем не менее, если я запусту базовый поиск дубликатов файлов, они не будут отображаться, потому что журналы имеют (несколько раздражающую) привычку помещать титульную страницу в PDF-файл перед фактической статьей. Другими словами, если у меня есть две копии статьи "X" автора Y, одна из которых загружена с сайта A, а другая с сайта B, они не являются точными дубликатами, поскольку у одной есть титульная страница от A, а у другой - (другая) обложка. страница из B. Так что мой вопрос:
Можно ли проверить, являются ли два файла PDF дубликатами, игнорируя первую страницу?
Конечно, это не решает всех моих проблем, так как на некоторых сайтах журналов нет обложки! Таким образом, самый лучший вопрос будет:
Можно ли проверить, являются ли два файла PDF дубликатами, где один (или оба) могут иметь титульную страницу?