Я пытаюсь использовать Elasticsearch (Elastic Stack) для хранения 3 миллионов HTML-файлов, извлеченных из Интернета. Большинство руководств по Elasticsearch сосредоточены на документах JSON. Можно ли хранить HTML-файлы в индексе Elasticsearch? Если да, нужно ли указывать каждый важный тег?
1 ответ
Кто-то сказал:
Я бы посмотрел на массовый API, который позволяет вам отправлять больше, чем документ за один запрос, чтобы ускорить процесс индексации. Вы можете отправить пакет из 10, 20 или более документов, в зависимости от их размера.
В зависимости от того, что вы хотите проиндексировать, вам может понадобиться проанализировать html, если только вы не хотите проиндексировать весь html как одно поле (в этом случае вы можете использовать html strip char char filter для удаления html-тегов из проиндексированных текст).
После индексации я бы порекомендовал убедиться в правильности сопоставления, и вы сможете найти то, что ищете. Вы всегда можете переиндексировать, используя специальное поле _source, которое хранится в архивеasticsearch, но если вы уже написали свой код индексатора, вы можете использовать его снова для переиндексации при необходимости (конечно, с теми же HTML-документами). На практике вы никогда не индексируете свои данные один раз ... так что будьте осторожны :), несмотря на то, чтоasticsearch всегда помогает вам с полем _source), достаточно просто запросить существующий индекс и переиндексировать все его документы в другом индексе.