1

Я работаю в области компьютерной криминалистики - один из наборов данных, которые мне недавно было предложено проанализировать, содержит ряд файлов .ddd, которые я до сих пор не смог открыть.

Прочитав эти файлы в текстовом / шестнадцатеричном редакторе, вы обнаружите различные упоминания о «Verity Inc версии 5.5.0». Некоторое интенсивное поиск в Google показывает, что они могут быть связаны с каким-то старым программным обеспечением для управления документами, называемым «Verity Documentum».

Эти файлы датированы еще в 2003 году - немного раньше моего времени! С тех пор Verity была куплена компанией «Autonomy Corp», которая затем была куплена HP. Как и ожидалось, никто в HP не имеет ни малейшего представления, о чем я говорю, и все контакты с Verity / Autonomy, с которыми я пытался говорить, были тупиковыми.

Спрашивая «более опытных» участников, кто-нибудь сталкивался с такими файлами или этим программным обеспечением раньше? Если да, то знаете ли вы, как их открыть или преобразовать в более читаемый формат?

1 ответ1

0

Коллекции Верити

Verity, Inc. - компания, стоящая за поисковой системой предприятия K2. Технология Verity была включена в различные сторонние программы, такие как ColdFusion (от версии 5 до версии 9.0.1), PeopleSoft, OrCAD и PaperPort.

Отдельная коллекция представляет собой логическую группу документов плюс набор метаданных об этих документах. Конкретная информация, хранящаяся для коллекции, включает в себя различные индексы слов, внутреннюю таблицу документов, содержащую информацию о полях документов, и логические указатели на фактические файлы документов.

Источник: особенности коллекций - содержание индексов коллекций

Структура каталогов

Из коллекции Verity

Каждая коллекция включает в себя следующие подкаталоги:

  • assists Содержит файлы, которые предоставляют общую информацию о коллекции и помогают оптимизировать поиск, например, списки охватывающих слов (*.wld), файл "about" коллекции (*.abt) и индексы ngram (*.ngm).

  • morgue Содержит файлы коллекции, запланированные для удаления.

  • parts Содержит таблицу внутренних полей (*.ddd) и индекс слова (*.did) для каждого из разделов в коллекции.

  • pdd Содержит файл карты разделов (*.pdd) для коллекции.

  • style Набор стилей, который настраивает коллекцию. Содержит как файлы стилей шлюза, так и файлы стилей коллекции.

  • temp Временное хранилище, используемое Verity Spider и K2 Spider.

  • topicidx Содержит проиндексированные наборы тем, если они существуют для этой коллекции.

  • trans Содержит файлы (*.trn), в которых хранится информация об ожидающих транзакциях индексации.

  • work Временное хранилище для обрабатываемых файлов.

Источник: Verity Collection Reference

В зависимости от коллекции некоторые из перечисленных выше папок могут быть пустыми или отсутствовать полностью. Папки style и parts являются наиболее актуальными.

Перегородки

При индексации документов механизм Verity сохраняет метаданные документа в единицах, называемых разделами. Каждый раздел содержит метаданные (как правило, полнотекстовый индекс) для набора документов, состоящих из от 1 до 64 тыс. Документов. Механизм Verity на самом деле не копирует ваш документ; скорее раздел содержит все метаданные, связанные с документами, которые делают их доступными для поиска, включая:

  • Внутренняя таблица документов, включая поля; некоторые поля определены по умолчанию, и могут быть определены пользовательские поля, такие как "Заголовок" и "Автор".

  • Полный указатель слов (иногда называемый списком слов) в документах этого раздела.

Источник: Внутри коллекции Verity - Что такое разделы?

Каждый раздел состоит из списка слов и таблицы документов, которые названы в честь последовательного 8-значного номера (например, 00000001.did и 00000001.ddd). Оба хранятся в виде двоичных файлов.

Поля в таблице документов определяются следующими файлами стилей коллекции:

  • style.ddd определяет поля, используемые внутренне механизмом Verity, идентифицируемый начальным символом подчеркивания (_).

  • style.sfl , определяет стандартные поля (многие из которых закомментированы для ограничения размера таблицы документов).

  • style.ufl , определяет настраиваемые поля, которые не включены в style.sfl .

Значение каждого поля может быть заполнено из исходных документов или может быть указано явно. Если поле пустое, оно не заполнено.

Источник: с помощью обзора

дальнейшее чтение


Просмотр данных раздела

Все продукты Verity поставляются в комплекте с некоторыми инструментами для обслуживания и устранения неполадок. Среди них есть didump и browse . Первый может использоваться для отображения содержимого списков слов; последний может использоваться для отображения проиндексированных полей документа.

просматривать

Программа принимает один параметр, который является путем к файлу .ddd :

browse.exe "X:\collection\parts\00000001.ddd"

После успешного открытия файла отобразятся доступные параметры:

BROWSE OPTIONS
  ?) help
  q) quit
  c) Number of entries in field
  _) Toggle viewing fields beginning with '_'
  v) Toggle viewing selected fields
 ##) Display all fields in specified record number
Dispatch/Compound field options:
  n) No dispatch
  d) Dispatch
  s) Dispatch as stream

Подсчитать количество записей

Чтобы проверить количество проиндексированных записей, вы можете ввести c , а затем указать VdkVgwKey в качестве поля, которое является первичным ключом, используемым для идентификации каждой записи в таблице документов:

Action (? for help): c
Number of entries in field named: VdkVgwKey
There are (58) entries in the field (VdkVgwKey)

Показать конкретную запись

Все индексы начинаются с нуля. Например, чтобы получить первую запись, введите 0 и нажмите Enter:

Record number: 0
0  _DDFLAG          FIX-unsg (  1) = 0x00
1  _DDVALUE         VAR-text (  0) =
2  _DDVALUE_OF      FIX-unsg (  4) = 0
3  _DDVALUE_SZ      FIX-unsg (  2) = 0
4  _DBVERSION       CON-text (  7) = vdk060
5  _DDDSTAMP        FIX-date (  4) = 17-Apr-2003 01:51:06 pm
6  _DOCIDX          FIX-text ( 12) = ☺
7  _PARTDESC        FIX-text ( 32) = vdk150.dll (Verity, Inc. Version
8  _STYLE           AUT-text ( 58) = C:/Users/Test/Desktop/coll/style/style.ddd
9  _DOCID           FIX-unsg (  4) = 1
10 _SECURITY        FIX-unsg (  4) = 0
12 VdkVgwKey_IX     FIX-unsg (  3) = 53
13 VdkVgwKey_MI     WRM-text ( 93) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\rational_clearcase_lt\cc_admin.pdf
14 VdkVgwKey_MX     WRM-text ( 75) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
15 VdkVgwKey_OF     FIX-unsg (  4) = 32
16 VdkVgwKey_SZ     FIX-unsg (  2) = 75
17 Exists           FIX-unsg (  1) = 100
18 IsAChunk         FIX-unsg (  1) = 0
19 LargeDoc         FIX-unsg (  1) = 187
20 StartPage        FIX-unsg (  4) = 1
21 EndPage          FIX-unsg (  4) = 0
22 StartPageFrom    FIX-unsg (  4) = 0
23 EndPageAt        FIX-unsg (  4) = 0
24 FileName         VAR-text ( 24) = ()(.)(using_search.pdf)
25 PageMap          VAR-text (  4) = D
26 NumPages         FIX-unsg (  4) = 2
27 PermanentID      FIX-text ( 32) = 177032712d4a99426aa238bdad896ba2
28 WXEVersion       FIX-unsg (  1) = 2
29 FTS_Title        VAR-text ( 41) = Using Search with Rational Documentation
30 FTS_Subject      VAR-text (  0) =
31 FTS_Author       VAR-text ( 18) = Rational Software
32 FTS_Keywords     VAR-text ( 57) = search, find, full-text Rational Version 20
03.06.00 Beta
33 FTS_Creator      VAR-text ( 15) = FrameMaker 7.0
34 FTS_Producer     VAR-text ( 34) = Acrobat Distiller 5.0.5 (Windows)
35 FTS_CreationDate FIX-xdat (  4) = 02-Jul-2002 09:01:00 pm
36 FTS_ModificationDate FIX-xdat (  4) = 03-Apr-2003 10:08:00 pm
37 DOC              DSP-text ( -1) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
38 DOC_FN           VAR-text ( 75) = C:/Documents and Settings/khakkara.RATIONAL
/Desktop/DOCCD/using_search.pdf
39 FileName_OF      FIX-unsg (  4) = 32
40 FileName_SZ      FIX-unsg (  2) = 24
41 PageMap_OF       FIX-unsg (  4) = 105
42 PageMap_SZ       FIX-unsg (  2) = 4
43 FTS_Title_OF     FIX-unsg (  4) = 32
44 FTS_Title_SZ     FIX-unsg (  2) = 41
45 FTS_Subject_OF   FIX-unsg (  4) = 0
46 FTS_Subject_SZ   FIX-unsg (  2) = 0
47 FTS_Author_OF    FIX-unsg (  4) = 32
48 FTS_Author_SZ    FIX-unsg (  2) = 18
49 FTS_Keywords_OF  FIX-unsg (  4) = 32
50 FTS_Keywords_SZ  FIX-unsg (  2) = 57
51 FTS_Creator_OF   FIX-unsg (  4) = 90
52 FTS_Creator_SZ   FIX-unsg (  2) = 15
53 FTS_Producer_OF  FIX-unsg (  4) = 56
54 FTS_Producer_SZ  FIX-unsg (  2) = 34
55 DOC_OF           FIX-unsg (  4) = 0
56 DOC_SZ           FIX-unsg (  4) = 4294967295
57 DOC_FN_OF        FIX-unsg (  4) = 32
58 DOC_FN_SZ        FIX-unsg (  2) = 75
59 InstanceID       FIX-text ( 32) = 77b25f03d16bf386317bd13c3eba7d5e
60 InstanceID_IX    FIX-unsg (  3) = 22
61 DirID            VAR-text (  6) = ()(.)
62 DirID_IX         FIX-unsg (  3) = 0
63 DirID_OF         FIX-unsg (  4) = 32
64 DirID_SZ         FIX-unsg (  2) = 6

При повторном нажатии Enter вы можете отобразить следующую запись.

дальнейшее чтение


Получение утилит Verity

Самый простой способ получить копию - загрузить программное обеспечение, которое включает их. Например, приложение PaperPort в комплекте с некоторыми многофункциональными принтерами Dell и старыми пробными версиями ColdFusion.

Ручная установка

В качестве примера я буду использовать 15-дневную пробную версию PaperPort .

  1. Загрузите пробную версию. Вот прямые ссылки:

  2. Откройте исполняемый файл с помощью 7-Zip и распакуйте папку PaperPort куда-нибудь.

  3. Откройте командную строку и перейдите к папке, которую вы только что извлекли:

    cd /d "X:\Whatever\PaperPort"
    
  4. Извлеките все файлы, запустив установщик MSI в административном режиме:

    msiexec /a "Nuance PaperPort 14.msi" targetdir="%cd%\Temp"
    
  5. Продолжить установку. После завершения установки вы найдете инструменты Verity в следующей папке:

    X:\Whatever\PaperPort\Temp\program files\Nuance\PaperPort\Verity\vdk\_nti40\bin
    

Образцы коллекций

Вот несколько коллекций Verity, которые я нашел в Интернете. Они могут быть полезны для целей тестирования или просто для лучшего понимания того, как они работают:

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .