Я не ищу похожие изображения или фотографии (imagedupe), ни аудио файлы!
У меня много медиа-данных, и я хочу найти дубликаты на основе их имени. Я знаю, что есть fdupes и т.д., Но в моем случае это не сработает (например, перекодирование тех же данных). Я могу себе представить, что сходство строк - трудная задача, но, исходя из того факта, что слова «и» имеют меньше информации, чем, например, «растение, пират», я знаю, что такая штука должна быть возможной. Я знаю, что не буду определять все дубликаты с таким методом, так как числа также могут быть написаны словами, имена в CamelCase и в 1337 году также могут быть твердыми кандидатами. Но я задавался вопросом, было ли уже задумано нечто подобное.
Моя первая попытка заключается в следующем:
Сначала извлеките все соответствующие слова:
find . -type f -exec basename {} \; | sort | tr "\n" " " | sed 's/[\._\-]/ /g' | tr " " "\n" | sort | uniq -c
второй отфильтровать слова типа: "и, ..."
для каждого слова в оставшемся списке сделать вид как
find . -iname $word -type f