1

Я пытаюсь создать графический интерфейс для поиска по большому количеству огромных файлов конфигурации (около 60000 файлов, каждый размером от 20 КБ до 50 МБ). Эти файлы также часто обновляются (~ 3 раза в день).

До сих пор я нашел SOLR и Sphinx, но не нашел способа заставить их возвращать список совпадающих строк, включая номер строки для каждого соответствующего документа.

В настоящее время мы конвертируем каждый текстовый файл в XML:

<xml>
   <line number="1">foobar</line>
   <line number="2">barfoo</line>
   ...
</xml>

и сохраните результат в eXist-db. Однако хранение документов происходит слишком медленно, поэтому нам нужна альтернатива.

Есть идеи получше?

1 ответ1

0

Мнение: Если у вас есть большие объемы изменчивых текстовых данных, к которым вам нужен быстрый доступ, преобразование их в XML усложнит решение ваших проблем.

Есть идеи получше?

Оставить файлы в виде текста и использовать Lucene?

(Я предполагаю, что grep не сокращает это)

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .