Существует ли какое-либо приложение с графическим интерфейсом (для Windows или Linux), которое реализует алгоритмы нечеткого хеширования, такие как ssdeep или sdhash, чтобы найти рядом дублирующиеся файлы (в основном текстовые файлы)?
3 ответа
Вы можете попробовать возле поиска дубликатов. Это не совсем то, что вы просите, но оно основано на Java, поэтому оно будет работать на любой платформе, где работает Java (включая Windows, OS X и Linux). У него нет графического интерфейса, но он найдет почти одинаковые текстовые файлы, такие как TXT, DOC, HTML, PDF и т.д.
Пример использования
Near Duplicates Finder v.0.1.0
Usage: java com.softcorporation.neardup.DuplicatesFinder parameters ...
Parameters format: -parameter [value]
-start filename[,filename] directory / file(s) to search for duplicates (mandatory)
-report filename report file (by default report goes to ./report.log file)
-score the score to report the duplicate (default is 0.6)
-onlynew find the duplicates only for new documents
-gram number of words in a phrase
-purge clear files list from past runs
-db location of db directory with files list
-delete criteria remove duplicates by criteria (old, new, small, large)
-deletepath pattern remove only matching pattern files (mandatory for delete)
-verbose display progress information (on standard output)
Example: Find duplicates from text files in directory 'docs' and save report in 'report.log'
java com.softcorporation.neardup.DuplicatesFinder -start docs -report report.log
For more information visit web site: http://www.softcorporation.com/products/neardup
Я думаю, что это дубликат поиска файлов, который вы ищете. Существует режим сходства, который очень хорошо работает и с файлами исходного кода (текстовыми файлами), но он доступен в коммерческой версии PRO.
Я нашел SSDeepFE для ssdeep.
Кроме того, у sdhash, похоже, есть веб-интерфейс, но он пока не очень полезен.