Я использую wget для получения определенных файлов PDF с http://www.aph.gov.au/
Я только хочу получить файлы Hansard (стенограммы заседаний Палаты).
Два сценария:
- Есть страница, где транскрипты Hansard перечислены:
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
Нажав на ссылку день / дата на этой странице, можно получить ответ на запрос к базе данных, в котором отображаются ссылки на другие файлы. Я только хочу получить файл, обозначенный «Download Current Hansard», который является расшифровкой всего дня (я не хочу получать «фрагменты»).
Я могу щелкнуть по ответу на запрос, собрать URL-адреса для расшифровки стенограммы за весь день, упаковать их в файл и получить с помощью wget -i.
Я ищу способ использовать wget, чтобы получить только дневные стенограммы.
- На странице перечислены только несколько лет. Однако, перейдя к базе данных и выполнив расширенный поиск по Hansard, затем щелкнув диапазоны десятилетий в верхнем левом углу экрана, а затем год, выведите список разных дней в этом году. Опять же, отображаемая ссылка верхнего уровня не дает pdf стенограммы за весь день, но нажатие на заголовок приводит к отображаемой странице, которая показывает ссылку на стенограмму за весь день.
Я хотел бы использовать wget для получения только pdf файлов стенограммы за весь день.
Любой совет будет с благодарностью получен. Я делаю успехи с «полуручным» методом, но он медленный и трудоемкий.