Моя конечная цель - рефакторинг кода, написанного моими коллегами. Итак, есть ли инструмент, который может найти файлы, отличающиеся только несколькими словами?
(Правка: это для Mac, но другим могут понравиться ответы не от Mac.)
Моя конечная цель - рефакторинг кода, написанного моими коллегами. Итак, есть ли инструмент, который может найти файлы, отличающиеся только несколькими словами?
(Правка: это для Mac, но другим могут понравиться ответы не от Mac.)
Simian делает это для исходного кода некоторых языков. Лучше всего при нахождении явного копирования с копированием и вставкой. Его разработки, кажется, застопорились, но это работает достаточно хорошо.
(Для Windows)
Продукт Anti-Twin (бесплатный для частного использования) утверждает, что может сделать это:
Если вы хотите, чтобы Anti-Twin выполнял поиск не только полных дубликатов, но и похожих файлов, вы можете уменьшить желаемое минимальное совпадение со значения по умолчанию от 100% до 60%. Эта функция была специально разработана для поиска практически идентичных файлов, в которых была изменена только крошечная деталь. Анти-Твин использует поиск сходства, как только вы введете значение ниже 100%. Сравнение сходства занимает намного больше времени, чем поиск 100% полных дубликатов!
К сожалению, поиск сходства как часть побайтового сравнения имеет смысл только для нескольких типов файлов, поскольку сходство может быть обнаружено только в том случае, если файлы не сжаты и не зашифрованы. Несжатые файлы - это, например, неформатированные тексты (.TXT) и HTML.