Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?

Question

Мне нужно скачать все PDF-файлы, представленные на сайте. Проблема в том, что они не перечислены ни на одной странице, поэтому мне нужно что-то (программа? рамки?) сканировать сайт и скачивать файлы, или, по крайней мере, получить список файлов. Я попробовал WinHTTrack, но не смог заставить его работать. DownThemAll for Firefox не сканирует несколько страниц или целые сайты. Я знаю, что есть решение, так как я не мог быть первым человеком, которому представили эту проблему. Чтобы вы посоветовали?

score 10 · Answer 1 · 2011-03-09T19:38:42

С http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files:

wget -r -A pdf http://www.site.com

score 3 · Answer 2 · 2011-03-09T19:38:42

У Google есть возможность вернуть только файлы определенного типа. Объедините это с опцией "site", и у вас будет свой "сканер".

Пример: http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf

score 2 · Answer 3 · 2011-03-09T19:38:42

Используйте некоторую библиотеку для веб-сканирования, например. в рубине http://www.example-code.com/ruby/spider_begin.asp

score 0 · Answer 4 · 2011-03-09T19:38:42

Если ссылки на файлы PDF отсутствуют, сканер не поможет, и у вас есть только два варианта:

Получить список откуда-то еще (запросите список у веб-мастера сайта)
Получить список из списка каталогов WebSite. Хотя, если они отключили эту опцию на своем веб-сервере, вы не сможете ее использовать.

Сейчас выбран русский

Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?

4 ответа4

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf web-crawler.

Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?

4 ответа4

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf web-crawler.

Похожие