Я использую wget для получения определенных файлов PDF с http://www.aph.gov.au/

Я только хочу получить файлы Hansard (стенограммы заседаний Палаты).

Два сценария:

  1. Есть страница, где транскрипты Hansard перечислены:

http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011

Нажав на ссылку день / дата на этой странице, можно получить ответ на запрос к базе данных, в котором отображаются ссылки на другие файлы. Я только хочу получить файл, обозначенный «Download Current Hansard», который является расшифровкой всего дня (я не хочу получать «фрагменты»).

Я могу щелкнуть по ответу на запрос, собрать URL-адреса для расшифровки стенограммы за весь день, упаковать их в файл и получить с помощью wget -i.

Я ищу способ использовать wget, чтобы получить только дневные стенограммы.

  1. На странице перечислены только несколько лет. Однако, перейдя к базе данных и выполнив расширенный поиск по Hansard, затем щелкнув диапазоны десятилетий в верхнем левом углу экрана, а затем год, выведите список разных дней в этом году. Опять же, отображаемая ссылка верхнего уровня не дает pdf стенограммы за весь день, но нажатие на заголовок приводит к отображаемой странице, которая показывает ссылку на стенограмму за весь день.

Я хотел бы использовать wget для получения только pdf файлов стенограммы за весь день.

Любой совет будет с благодарностью получен. Я делаю успехи с «полуручным» методом, но он медленный и трудоемкий.

1 ответ1

0

Вы не сможете сделать это, используя только wget .

Вам нужно будет создать скрипт, который будет захватывать первую страницу со ссылками на дату, а затем анализировать страницу на предмет правильного URL. Затем скрипт будет захватывать страницу по этому URL-адресу и анализировать ее по URL-адресу PDF-файла.

Это можно сделать с помощью специального скрипта Python, который использует библиотеку beautifulsoup .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .