Я восстановил несколько ТБ данных, получив более миллиона файлов. Многое из того, что было восстановлено, является мусором, но небольшой процент - очень ценные файлы, которые похоронены в беспорядке. Вопрос: Как я могу свести результаты восстановления к управляемому соотношению «сигнал / шум» для облегчения оценки отдельных файлов?
Фон
Я использовал Foremost, Testdisk, dd и Photorec для восстановления данных. Прежде всего и т.д. Извлекайте данные резервного копирования по типу файла. В итоге вы получаете миллионы файлов, отсортированных по типу в подкаталоге. Например, я открываю один каталог и сталкиваюсь с 250000 JPEG.
Чтобы усложнить ситуацию, эти программы делают некоторые вещи неправильно. Например, я установил его для распознавания CSS-файлов путем поиска фрагментов кода #* {
, .* {
, #*{
.*{
, Но неизбежно будут некоторые ложные срабатывания для такого простого фильтра.
Логический (методический) подход к рассмотрению этого по типу файла. Например, я должен оценить каждый файл, обозначенный как "css", чтобы увидеть, является ли он даже CSS; 99,9% нет.
Я пытаюсь сделать задачу более управляемой, отбирая файлы, которые можно идентифицировать как удаляемые (т.е. бесполезные, поврежденные, непригодные к использованию / неустранимые), в идеале с помощью автоматических средств или, по крайней мере, навалом.
Характеристики файла
Вот оценка количества файлов:
type, sizeG, approx % corrupt, approx % I may end up needing
jpg 10G ~25% corrupt ~0.0025% keep
js 13G ~0% corrupt ~0.025% keep
less 1G ~0% corrupt ~0.001% keep
mov 21G ~0% corrupt ~50% keep
mp3 13G ~50% corrupt ~2% keep
mp4 1.5G ~50% corrupt ~25% keep
pdf 11G ~20% corrupt ~0.125 keep
(The PDF files are picture albums; each one is a collection of dozens of
important pics. Examining them is hard and time-consuming to do manually.)
wma 2.7G ~90% corrupt ~0.01% keep
zip 2G
Вот некоторые из процедур, которые я использую сейчас
JPG
Используя Windows, я могу открыть папку, просмотреть миниатюры, а те, которые не видны, не будут загружаться. 1 Я могу нажать на них и удалить. К сожалению, это каталог 35G, содержащий 320 000 файлов .jpg
, без организации.
__________
1 Было бы точнее сказать, что существует высокая корреляция между неповрежденными файлами и теми, которые будут отображать узнаваемый эскиз.
Используя Windows, я щелкаю правой кнопкой мыши около 1000 файлов, затем нажимаю кнопку «Открыть», жду 5 минут, затем выполняю некоторые операции с первой, чтобы объединить все открытые файлы в один файл, что занимает около 10 минут, а затем массово закройте 1000 файлов. , Затем откройте этот сверхбольший файл и выполните прокрутку в поисках реальных изображений. Я выделяю ~ 100 по отдельности, затем извлекаю их в новый файл для архивирования и, наконец, удаляю этот большой файл.
mp3, mp4, wma
Используя Windows, я не могу использовать Winamp для этого, потому что один поврежденный файл убивает Winamp каждый раз. Поэтому я использую VLC, помещаю их в длинный список воспроизведения и слушаю. Плохие файлы пропускаются сразу, но это все равно занимает очень много времени.
застежка-молния
Используя Windows, я думаю, что у меня есть zip down. Я выбираю все zip-файлы, щелкаю правой кнопкой мыши, извлекаю WinRAR или извлекаю каждый как отдельный архив. Но кликать в каждый каталог потом - большая работа.
JS, CSS, меньше
Используя Windows, их довольно легко просматривать быстро. Я открываю родительский каталог в Проводнике, включаю предварительный просмотр файла, выбираю первый элемент, затем использую стрелку, удаляю и нажимаю клавиши на клавиатуре. Тем не менее, есть 20 000 файлов.
Задача
Я хотел бы знать, какие методы могут быть использованы более эффективно, чем этот, для сортировки / фильтрации последствий восстановления данных, чтобы я мог ускорить это. Предложения для Linux очень приветствуются. Даже в качестве первого шага было бы полезно, если бы я мог определить поврежденные файлы во всем архиве и сначала удалить их, а затем 0-байтовые файлы.