6

У меня есть папка, полная файлов, с несколькими дублирующимися файлами. К сожалению, в ряде случаев одна версия является обновленной версией другой, поэтому прямое совпадение байтов не обнаруживает дублирование. (Я посмотрел на этот вопрос, но все, на что я смотрел из списка, похоже, проводят только сравнение байтов ...)

Существуют ли какие-либо (Windows) приложения для дедупликации, которые могут сопоставить сходство и указать пользователю файлы для проверки? Бесплатное программное обеспечение это хорошо, бесплатная пробная версия приемлема. Даже просто список сходств, чтобы сказать мне, где искать, вероятно, будет работать.

РЕДАКТИРОВАТЬ: Извините, я должен был упомянуть; это текстовые файлы, в основном DOC, PPT и PDF. Наиболее вероятным изменением является контент, но форматирование также может отличаться. Хотя бы просто заметить изменения в тексте было бы полезно, хотя ...

3 ответа3

3

Вы можете попробовать детектор плагиата. Плагиат и обновления не имеют абсолютно одинакового сходства, поэтому могут давать или не давать полезных результатов, но есть из чего выбирать, так что если один не поможет, другой может. У меня нет конкретной программы, чтобы рекомендовать; Вы могли бы попытаться спросить любого учителя или профессора, которого вы знаете (предпочтительно за пределами компьютерных наук, так как они более вероятно знакомы с плагиатом программирования, чем с плагиатом естественного языка).

0

Ищите ssdeep и sdhash.

Я никогда не пробовал sdhash, но я читаю это лучше, чем ssdeep. В любом случае, оба предоставляют CLI, который позволяет вычислять нечеткие хеши и их соответствующие сходства.

Должно работать довольно хорошо для вашей цели.

PS: извините за краткость и отсутствие ссылок, но я мобильный банкомат.

0

Я не знаю ни одного приложения, но если большая часть контента одинакова между версиями, вы можете выполнить поиск Windows по каталогу с параметром "слово или фраза в файле". Ваш запрос - это конкретная фраза, которая не меняется (или, по крайней мере, вы не думаете, что она меняется) во многом между версиями и довольно уникальна для этого конкретного документа / набора документов. Этот тип поиска должен работать для PDF, DOC и PPT, несмотря на то, что они не являются прямыми текстовыми файлами. Это не даст вам точного результата, который вы ищете, но если вы правильно выберете поисковую фразу и ваш контент между версиями не сильно разнится, он должен работать довольно хорошо.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .