Коллекции Верити
Verity, Inc. - компания, стоящая за поисковой системой предприятия K2. Технология Verity была включена в различные сторонние программы, такие как ColdFusion (от версии 5 до версии 9.0.1), PeopleSoft, OrCAD и PaperPort.
Отдельная коллекция представляет собой логическую группу документов плюс набор метаданных об этих документах. Конкретная информация, хранящаяся для коллекции, включает в себя различные индексы слов, внутреннюю таблицу документов, содержащую информацию о полях документов, и логические указатели на фактические файлы документов.
Источник: особенности коллекций - содержание индексов коллекций
Структура каталогов
Из коллекции Verity
Каждая коллекция включает в себя следующие подкаталоги:
assists
Содержит файлы, которые предоставляют общую информацию о коллекции и помогают оптимизировать поиск, например, списки охватывающих слов (*.wld
), файл "about" коллекции (*.abt
) и индексы ngram (*.ngm
).
morgue
Содержит файлы коллекции, запланированные для удаления.
parts
Содержит таблицу внутренних полей (*.ddd
) и индекс слова (*.did
) для каждого из разделов в коллекции.
pdd
Содержит файл карты разделов (*.pdd
) для коллекции.
style
Набор стилей, который настраивает коллекцию. Содержит как файлы стилей шлюза, так и файлы стилей коллекции.
temp
Временное хранилище, используемое Verity Spider и K2 Spider.
topicidx
Содержит проиндексированные наборы тем, если они существуют для этой коллекции.
trans
Содержит файлы (*.trn
), в которых хранится информация об ожидающих транзакциях индексации.
work
Временное хранилище для обрабатываемых файлов.
Источник: Verity Collection Reference
В зависимости от коллекции некоторые из перечисленных выше папок могут быть пустыми или отсутствовать полностью. Папки style
и parts
являются наиболее актуальными.
Перегородки
При индексации документов механизм Verity сохраняет метаданные документа в единицах, называемых разделами. Каждый раздел содержит метаданные (как правило, полнотекстовый индекс) для набора документов, состоящих из от 1 до 64 тыс. Документов. Механизм Verity на самом деле не копирует ваш документ; скорее раздел содержит все метаданные, связанные с документами, которые делают их доступными для поиска, включая:
Внутренняя таблица документов, включая поля; некоторые поля определены по умолчанию, и могут быть определены пользовательские поля, такие как "Заголовок" и "Автор".
Полный указатель слов (иногда называемый списком слов) в документах этого раздела.
Источник: Внутри коллекции Verity - Что такое разделы?
Каждый раздел состоит из списка слов и таблицы документов, которые названы в честь последовательного 8-значного номера (например, 00000001.did
и 00000001.ddd
). Оба хранятся в виде двоичных файлов.
Поля в таблице документов определяются следующими файлами стилей коллекции:
style.ddd
определяет поля, используемые внутренне механизмом Verity, идентифицируемый начальным символом подчеркивания (_
).
style.sfl
, определяет стандартные поля (многие из которых закомментированы для ограничения размера таблицы документов).
style.ufl
, определяет настраиваемые поля, которые не включены в style.sfl
.
Значение каждого поля может быть заполнено из исходных документов или может быть указано явно. Если поле пустое, оно не заполнено.
Источник: с помощью обзора
дальнейшее чтение
Просмотр данных раздела
Все продукты Verity поставляются в комплекте с некоторыми инструментами для обслуживания и устранения неполадок. Среди них есть didump
и browse
. Первый может использоваться для отображения содержимого списков слов; последний может использоваться для отображения проиндексированных полей документа.
просматривать
Программа принимает один параметр, который является путем к файлу .ddd
:
browse.exe "X:\collection\parts\00000001.ddd"
После успешного открытия файла отобразятся доступные параметры:
BROWSE OPTIONS
?) help
q) quit
c) Number of entries in field
_) Toggle viewing fields beginning with '_'
v) Toggle viewing selected fields
##) Display all fields in specified record number
Dispatch/Compound field options:
n) No dispatch
d) Dispatch
s) Dispatch as stream
Подсчитать количество записей
Чтобы проверить количество проиндексированных записей, вы можете ввести c
, а затем указать VdkVgwKey
в качестве поля, которое является первичным ключом, используемым для идентификации каждой записи в таблице документов:
Action (? for help): c
Number of entries in field named: VdkVgwKey
There are (58) entries in the field (VdkVgwKey)
Показать конкретную запись
Все индексы начинаются с нуля. Например, чтобы получить первую запись, введите 0
и нажмите Enter:
Record number: 0
0 _DDFLAG FIX-unsg ( 1) = 0x00
1 _DDVALUE VAR-text ( 0) =
2 _DDVALUE_OF FIX-unsg ( 4) = 0
3 _DDVALUE_SZ FIX-unsg ( 2) = 0
4 _DBVERSION CON-text ( 7) = vdk060
5 _DDDSTAMP FIX-date ( 4) = 17-Apr-2003 01:51:06 pm
6 _DOCIDX FIX-text ( 12) = ☺
7 _PARTDESC FIX-text ( 32) = vdk150.dll (Verity, Inc. Version
8 _STYLE AUT-text ( 58) = C:/Users/Test/Desktop/coll/style/style.ddd
9 _DOCID FIX-unsg ( 4) = 1
10 _SECURITY FIX-unsg ( 4) = 0
12 VdkVgwKey_IX FIX-unsg ( 3) = 53
13 VdkVgwKey_MI WRM-text ( 93) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\rational_clearcase_lt\cc_admin.pdf
14 VdkVgwKey_MX WRM-text ( 75) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
15 VdkVgwKey_OF FIX-unsg ( 4) = 32
16 VdkVgwKey_SZ FIX-unsg ( 2) = 75
17 Exists FIX-unsg ( 1) = 100
18 IsAChunk FIX-unsg ( 1) = 0
19 LargeDoc FIX-unsg ( 1) = 187
20 StartPage FIX-unsg ( 4) = 1
21 EndPage FIX-unsg ( 4) = 0
22 StartPageFrom FIX-unsg ( 4) = 0
23 EndPageAt FIX-unsg ( 4) = 0
24 FileName VAR-text ( 24) = ()(.)(using_search.pdf)
25 PageMap VAR-text ( 4) = D
26 NumPages FIX-unsg ( 4) = 2
27 PermanentID FIX-text ( 32) = 177032712d4a99426aa238bdad896ba2
28 WXEVersion FIX-unsg ( 1) = 2
29 FTS_Title VAR-text ( 41) = Using Search with Rational Documentation
30 FTS_Subject VAR-text ( 0) =
31 FTS_Author VAR-text ( 18) = Rational Software
32 FTS_Keywords VAR-text ( 57) = search, find, full-text Rational Version 20
03.06.00 Beta
33 FTS_Creator VAR-text ( 15) = FrameMaker 7.0
34 FTS_Producer VAR-text ( 34) = Acrobat Distiller 5.0.5 (Windows)
35 FTS_CreationDate FIX-xdat ( 4) = 02-Jul-2002 09:01:00 pm
36 FTS_ModificationDate FIX-xdat ( 4) = 03-Apr-2003 10:08:00 pm
37 DOC DSP-text ( -1) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
38 DOC_FN VAR-text ( 75) = C:/Documents and Settings/khakkara.RATIONAL
/Desktop/DOCCD/using_search.pdf
39 FileName_OF FIX-unsg ( 4) = 32
40 FileName_SZ FIX-unsg ( 2) = 24
41 PageMap_OF FIX-unsg ( 4) = 105
42 PageMap_SZ FIX-unsg ( 2) = 4
43 FTS_Title_OF FIX-unsg ( 4) = 32
44 FTS_Title_SZ FIX-unsg ( 2) = 41
45 FTS_Subject_OF FIX-unsg ( 4) = 0
46 FTS_Subject_SZ FIX-unsg ( 2) = 0
47 FTS_Author_OF FIX-unsg ( 4) = 32
48 FTS_Author_SZ FIX-unsg ( 2) = 18
49 FTS_Keywords_OF FIX-unsg ( 4) = 32
50 FTS_Keywords_SZ FIX-unsg ( 2) = 57
51 FTS_Creator_OF FIX-unsg ( 4) = 90
52 FTS_Creator_SZ FIX-unsg ( 2) = 15
53 FTS_Producer_OF FIX-unsg ( 4) = 56
54 FTS_Producer_SZ FIX-unsg ( 2) = 34
55 DOC_OF FIX-unsg ( 4) = 0
56 DOC_SZ FIX-unsg ( 4) = 4294967295
57 DOC_FN_OF FIX-unsg ( 4) = 32
58 DOC_FN_SZ FIX-unsg ( 2) = 75
59 InstanceID FIX-text ( 32) = 77b25f03d16bf386317bd13c3eba7d5e
60 InstanceID_IX FIX-unsg ( 3) = 22
61 DirID VAR-text ( 6) = ()(.)
62 DirID_IX FIX-unsg ( 3) = 0
63 DirID_OF FIX-unsg ( 4) = 32
64 DirID_SZ FIX-unsg ( 2) = 6
При повторном нажатии Enter вы можете отобразить следующую запись.
дальнейшее чтение
Получение утилит Verity
Самый простой способ получить копию - загрузить программное обеспечение, которое включает их. Например, приложение PaperPort в комплекте с некоторыми многофункциональными принтерами Dell и старыми пробными версиями ColdFusion.
Ручная установка
В качестве примера я буду использовать 15-дневную пробную версию PaperPort .
Загрузите пробную версию. Вот прямые ссылки:
Откройте исполняемый файл с помощью 7-Zip и распакуйте папку PaperPort
куда-нибудь.
Откройте командную строку и перейдите к папке, которую вы только что извлекли:
cd /d "X:\Whatever\PaperPort"
Извлеките все файлы, запустив установщик MSI в административном режиме:
msiexec /a "Nuance PaperPort 14.msi" targetdir="%cd%\Temp"
Продолжить установку. После завершения установки вы найдете инструменты Verity в следующей папке:
X:\Whatever\PaperPort\Temp\program files\Nuance\PaperPort\Verity\vdk\_nti40\bin
Образцы коллекций
Вот несколько коллекций Verity, которые я нашел в Интернете. Они могут быть полезны для целей тестирования или просто для лучшего понимания того, как они работают: