1

Я хотел бы получить все файлы .html с веб-сайта, на котором есть определенный текст:

например. this_is_good_site.html

Итак, я хотел бы скачать файлы .html со словом "хорошо" в названии. Я попробовал wget и curl, но я не понял, как я могу выбрать эти файлы, используя регулярное выражение? Есть ли решение на Python или Perl, если инструменты командной строки в Unix не могут этого сделать?

3 ответа3

2

Поскольку вы используете среду Unix, попробуйте это с помощью параметров рекурсивного принятия / отклонения wget;

wget -r -A "*good*" <site_to_download>

Это будет выполнять рекурсивную (-r) загрузку сайта и принимать только (-A) пути, которые соответствуют шаблону ("* good *")

1

Что ж, если вы хотите сделать это с Python, вы можете использовать urlib2 - вам, вероятно, повезет больше с этим вопросом о StackOverflow.

1

Попробуйте копир сайта HTTrack или аналогичную программу, лучше чем командная строка. скачать все это в каталог, отсортировать по .html скопировать и вставить их все в другое место, удалить остатки

http://www.httrack.com/

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .