Если бы вы использовали Heritrix Web Crawler, я был бы очень признателен за вашу помощь.

3 вопроса:

  1. Файл дуги, вероятно, содержит исходные коды многих страниц там. Как я узнаю, что есть что?
  2. Как мне интерпретировать файлы .arc.gz? Я открыл их в VIM и понял, что есть HTML-код + мусор (который я даже не могу разобрать, используя Python SGMLParser из-за мусора).
  3. Рекомендуется ли сжимать? (.Gz)

В принципе, я понятия не имею, что.Файлы ARC есть и что я могу с ними сделать. Я привык использовать URLLIB2 для загрузки и анализа HTML вручную.

1 ответ1

3

Это ссылка на скачивание ArcReader и объяснение: http://crawler.archive.org/articles/developer_manual/arcs.html.

Я гуглил для чтения дуговых файлов и это была первая ссылка.

Сначала вам нужно распаковать файлы (они сжаты, отсюда расширение .gz.). Затем вы можете прочитать файл ARC.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .