Если бы вы использовали Heritrix Web Crawler, я был бы очень признателен за вашу помощь.
3 вопроса:
- Файл дуги, вероятно, содержит исходные коды многих страниц там. Как я узнаю, что есть что?
- Как мне интерпретировать файлы .arc.gz? Я открыл их в VIM и понял, что есть HTML-код + мусор (который я даже не могу разобрать, используя Python SGMLParser из-за мусора).
- Рекомендуется ли сжимать? (.Gz)
В принципе, я понятия не имею, что.Файлы ARC есть и что я могу с ними сделать. Я привык использовать URLLIB2 для загрузки и анализа HTML вручную.