1

Сегодня я написал сценарий, который перебирает папку с 2,5-метровыми файлами. Первая проблема состояла в том, что итерация заняла очень много времени, потому что сначала нужно создать индекс каталога. после первоначальной сборки он должен храниться рядом с папкой, поэтому дальнейшие итерации должны выполняться быстрее.

это поведение можно рассматривать как следующее:

  • пока идет процесс сборки, скрипт просто зависает.
  • если вы остановили сценарий и перезапустили его, размер памяти был немедленно установлен равным значению предыдущего запуска (поэтому, если у вас было 400 МБ индексов, вы начнете оттуда, а не с 0)
  • после создания всего индекса, даже после перезапуска, каталог можно итерировать за секунды, а не за часы.

Дополнительную информацию о дереве индексов каталогов можно найти здесь: http://wiki.sleuthkit.org/index.php?title=NTFS.

Но теперь есть одна проблема: после того, как я удалил несколько файлов, индексация начинается снова. Так что каким-то образом дерево индекса не реорганизуется, а удаляется и создается новое. Есть ли ограничение по времени после того, как дерево признано недействительным или это просто размер дерева?

Есть ли способ ускорить доступ к большим структурам папок, заставляя дерево всегда оставаться в файловой системе?

0