4

Я должен проиндексировать довольно большой объем данных с помощью Windows Search, поэтому я хотел получить оценку размера индекса. Я проиндексировал подмножество данных (около 60 ГБ; 13e6 страниц текстовых данных каждый около 4-5 КБ).

Индекс вырос до 78 ГБ, поэтому теперь он занимает больше места, чем сами данные. Эти результаты противоречат тому, что я прочитал здесь:

Средний размер индекса составляет около 10% от размера всего индексируемого контента.

Это ожидаемый размер индекса? Что можно сделать, чтобы уменьшить его?

3 ответа3

1

Средний размер индекса не указывает на то, что у вас будет. Вероятно, это связано с тем, что в дополнение к индексации всех ваших файлов (и это будет уже большой размер в процентах, так как все ваши файлы небольшие), содержимое текстовых файлов также индексируется, что еще больше увеличивает размер индекса.

0

Я отключил службу поиска для Windows. Я использую альтернативные поисковые приложения. "Все" с размером всего 900 КБ для сверхбыстрого поиска файлов и "FileSeek Pro" для поиска по содержимому файлов.

0

Правило 10% опирается на ряд предположений:

  1. Корпус содержит файлы с прозой из человеческого языка
  2. Файлы в среднем достаточно большие по сравнению с их метаданными
  3. Корпус не содержит кодовых файлов (.cpp, .cs, ect)

Номер 3 объясняется тем, что индекс сжимается на диске, предполагая, что слова будут часто повторяться. Это верно для большей части текста (проверьте, сколько раз в вашем индексе появляется «the»), но для кода так много уникальных «слов» из имен переменных, что это нарушает это предположение.

В вашем случае, хотя я подозреваю, что проблема № 2, много маленьких файлов. Существует фиксированный объем служебных данных метаданных, который поставляется с каждым файлом, который необходимо сохранить в индексе. Например, индекс должен хранить полный путь, дату изменения, дату создания и т.д. Для каждого файла поверх содержимого. Это составляет примерно 3 КБ на файл, и, если средний размер файла составляет 4-5 КБ, это, скорее всего, проблема.

Если поиск важен и вы не можете объединить файл, я рекомендую отключить индексирование содержимого тех типов файлов, которых у вас много. Это должно несколько уменьшить размер, сохраняя метаданные файла для поиска.

Индексирование только содержимого с помощью страницы панели управления «Параметры индексации»

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .