У меня есть старый умирающий жесткий диск, который я не могу восстановить файлы с помощью TestDisk, поэтому вместо этого я использовал PhotoRec для сканирования жесткого диска, чтобы восстановить все файлы, которые я могу.

В итоге у меня появилось много документов Word (файлы .doc), которые кажутся поврежденными. Когда я открываю их, я получаю следующее окно:

Можно ли каким-то образом сканировать каталог документов Word, чтобы в результате я получал только действительные (не поврежденные) документы Word? Это избавит меня от открытия и проверки каждого документа в отдельности.

ОБНОВИТЬ:

Первые 32 байта данных в каждом из этих файлов .doc были одинаковыми ...

D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 3E 00 03 00 FE FF 09 00

Подпись файла, D0 CF 11 E0 A1 B1 1A E1 , говорит мне, что это документы Microsoft Office. Я пытался открыть один из файлов со следующими расширениями: DOC, DOT, PPS, PPT, XLA, XLS, WIZ. В каждом случае выдается ошибка.

1 ответ1

0

Вы можете использовать Antiword, чтобы попытаться прочитать файлы DOC . Вы можете получить версию для Windows здесь .

Разархивируйте Antiword в C:\antiword\ и перейдите в эту папку с помощью командной строки.
Затем вы можете использовать команду:

antiword PATH_TO_DOC_FILES\*.doc > tmpfile.txt

Antiword выведет текстовое содержимое файлов DOC которые он смог прочитать, в tmpfile.txt а затем вы сможете отсортировать нужные файлы и удалить поврежденные файлы.

Вывод Antiword может выглядеть примерно так:

::::::::::::::
Document 1.doc
::::::::::::::
                                Sample Document 1

This is a sample Word document.

::::::::::::::
Document 2.doc
::::::::::::::
                                Sample Document 2

This is another sample Word document.

::::::::::::::
Corrupt Document.doc
::::::::::::::

::::::::::::::
Another Corrupt Document.doc
::::::::::::::

Затем вы можете использовать grep или сопоставить регулярные выражения, чтобы найти имена поврежденных документов и удалить их.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .