Как найти кандидатов на дубликаты файлов, основываясь на сходстве их имен?

Question

Я не ищу похожие изображения или фотографии (imagedupe), ни аудио файлы!

У меня много медиа-данных, и я хочу найти дубликаты на основе их имени. Я знаю, что есть fdupes и т.д., Но в моем случае это не сработает (например, перекодирование тех же данных). Я могу себе представить, что сходство строк - трудная задача, но, исходя из того факта, что слова «и» имеют меньше информации, чем, например, «растение, пират», я знаю, что такая штука должна быть возможной. Я знаю, что не буду определять все дубликаты с таким методом, так как числа также могут быть написаны словами, имена в CamelCase и в 1337 году также могут быть твердыми кандидатами. Но я задавался вопросом, было ли уже задумано нечто подобное.

Моя первая попытка заключается в следующем:

Сначала извлеките все соответствующие слова:

find . -type f -exec basename {} \; | sort | tr "\n" " " | sed 's/[\._\-]/ /g' | tr " " "\n" | sort | uniq -c
второй отфильтровать слова типа: "и, ..."
для каждого слова в оставшемся списке сделать вид как

find . -iname $word -type f

score 2 · Accepted Answer · 2011-03-09T19:38:42

glimpse и agrep источники на ум.

Сейчас выбран русский

Как найти кандидатов на дубликаты файлов, основываясь на сходстве их имен?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux find filenames.

Как найти кандидатов на дубликаты файлов, основываясь на сходстве их имен?

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками linux find filenames.

Похожие