Я не ищу похожие изображения или фотографии (imagedupe), ни аудио файлы!

У меня много медиа-данных, и я хочу найти дубликаты на основе их имени. Я знаю, что есть fdupes и т.д., Но в моем случае это не сработает (например, перекодирование тех же данных). Я могу себе представить, что сходство строк - трудная задача, но, исходя из того факта, что слова «и» имеют меньше информации, чем, например, «растение, пират», я знаю, что такая штука должна быть возможной. Я знаю, что не буду определять все дубликаты с таким методом, так как числа также могут быть написаны словами, имена в CamelCase и в 1337 году также могут быть твердыми кандидатами. Но я задавался вопросом, было ли уже задумано нечто подобное.

Моя первая попытка заключается в следующем:

  • Сначала извлеките все соответствующие слова:

    find . -type f -exec basename {} \; | sort | tr "\n" " " | sed 's/[\._\-]/ /g' | tr " " "\n" | sort | uniq -c

  • второй отфильтровать слова типа: "и, ..."

  • для каждого слова в оставшемся списке сделать вид как

    find . -iname $word -type f

1 ответ1

2

glimpse и agrep источники на ум.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .