4

У меня есть 120 000 файлов (на самом деле, гораздо больше; это просто произвольное подмножество) неизвестного типа. file Linux не идентифицирует их (не обязательно, что они обязательно файлы Linux), равно как и другие методы, которые я пробовал. Есть только две подсказки о них, которые у меня есть на данный момент. Во-первых, я подозреваю, что используется некоторое сжатие - у меня есть метаданные, которые утверждают, что размеры файлов всегда на несколько больше, чем то, что я наблюдаю.

Другое дело, что в 100 000 из этих файлов первые 16 байтов всегда:

ff ee ee dd 00 00 00 00  01 00 00 00 00 00 00 00

Это действительно похоже на заголовок файла / магическое число для меня, но я просто не могу его разместить. Кто-нибудь знает, какие файлы это будет указывать? Кроме того, может ли кто-нибудь убедить меня, что эти подозрительно распространенные байты, безусловно, не указывают на конкретный тип файла?

ОБНОВИТЬ

Я не знаю точных деталей обратного проектирования, но большинство файлов в нашем случае - почтовые индексы после первых 29(? или около того) байты игнорируются. Таким образом, на практике проблема решена (мы знаем, как обрабатывать файлы), но в теории вопрос все еще остается без ответа - я не знаю, какое приложение обычно добавляет около 29 байтов к своим zip-файлам. [Я не уверен, должен ли я оставить вопрос открытым или нет на данном этапе.]

1 ответ1

3

Может быть, вы пытаетесь использовать TrID на некоторых из этих файлов
http://mark0.net/soft-trid-e.html
С сайта TrID:

TrID - это утилита, предназначенная для идентификации типов файлов по их двоичным сигнатурам. Хотя есть подобные утилиты с жестко закодированной логикой, у TrID нет фиксированных правил. Вместо этого он расширяемый и может быть обучен распознавать новые форматы быстрым и автоматическим способом.

TrID имеет много применений: определить, какой тип файла был отправлен вам по электронной почте, помощь в криминалистическом анализе, поддержка в восстановлении файлов и т.д.

TrID использует базу данных определений, которые описывают повторяющиеся шаблоны для поддерживаемых типов файлов. Поскольку это подлежит очень частому обновлению, оно доступно в виде отдельного пакета. Просто скачайте TrID и этот архив и распакуйте в одну папку ...
...
...

Обновить
После прочтения вашего обновления о том, что это Zip-файлы с добавленными перед ними 29 байтами, может быть, эти предварительно добавленные байты взяты из какого-то "сбоя" из-за способа получения этих файлов.

Пример 1:
Возможно, эти файлы были извлечены из резервной копии большого отдельного файла файлового сервера (например, если вы делаете резервное копирование сервера, используя NTBackup в одном файле, NTBackup может добавить некоторые данные атрибута перед данными, фактически содержащимися в файлы)

Пример 2:
может быть, эти файлы извлечены из БД, где они хранятся как объект BLOB

Пример 3:
возможно, эти файлы были извлечены из образа CD/DVD RAW (предварительно добавленные байты могут исходить из неправильной интерпретации смещения файла / файловой системы)

Существует бесконечное количество гипотез ... возможно, если вы знаете, откуда эти файлы, вы можете провести тест / проверку, чтобы проверить, есть ли утилита / программное обеспечение / инструмент / БД / сервер, который архивирует ZIP-файлы в некоторых другая структура файла / данных, предваряющая эти 29 байтов.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .