1

Я могу скачать все ссылки на веб-странице с расширениями pdf, zip и т.д.

Но на одном сайте есть более 50 ссылок, которые заканчиваются так:«http://... ... /showDocument.php?DocumentID = 121 "" http://... ... /showDocument.php?DocumentID = 33 "" http://... ... /showDocument.php?DocumentID = 67"

Когда я копирую ссылки на мою программу загрузки (Orbit), она не может понять, что они связаны с файлами PDF. И скачивает php файлы. Как я могу это исправить и легко загрузить все ссылки? Спасибо

4 ответа4

1

Это может быть ограничение программы. Кроме того, если вы проверите, вы, вероятно, не увидите необработанный PHP в загружаемом файле - это может быть ваш PDF. Попробуйте изменить расширение и посмотрите, сможете ли вы открыть его в программе чтения PDF.

0

Возможно, ваша программа просто использует неправильное имя файла, например, документ называется «showDocument.php», но на самом деле это PDF -> попытаться переименовать его.

0

Вы можете использовать Wget.

#/bin/bash

for i in {0 .. 50} 
  do    
     wget http://... ... /showDocument.php?DocumentID=${i} 
  done

Предполагается, что «цифры» находятся в диапазоне от 0 до 50. Если это числа случайных чисел, просто сделайте верхнюю границу цикла for действительно высокой (т.е. 1000) и заставьте wget игнорировать ошибки.

0

Веб-серверы отправляют обратно тип файла (известный как MIME-тип), который вы загружаете в заголовки HTTP, который большинство браузеров использует, чтобы определить, какое приложение использовать для его открытия, если это не файл, который он может обрабатывать изначально. Вот как браузер узнает, что ему нужно запустить Word, Excel или Acrobat (или любой другой), чтобы открыть файл. Я предполагаю, что Orbit просто использует вместо этого расширение файла. Поскольку PHP-код может быть написан для динамической отправки любого типа файла, на самом деле нет никакого способа определить, какой тип файла загружается, просто проверив расширение файла.

Если это так, то это ограничение вашего загрузчика, и вы захотите найти тот, который будет проверять тип файла на основе HTTP-заголовка Content-Type, отправляемого веб-сервером.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .