получить каждую страницу под веб-сайтом

Question

Мне нужна программа, чтобы получить все веб-страницы под веб-сайтом. Сайт на китайском, я хочу выложить все эти английские слова. Тогда я смогу извлечь всю необходимую мне информацию. Есть идеи для этого? Есть ли программное обеспечение для этой цели?

Если НЕТ, я хотел бы написать один. Какие-либо предложения?

Большое спасибо.

score 10 · Answer 1 · 2011-03-09T19:38:42

Используйте, например, wget -r http://site.to.copy.com чтобы рекурсивно извлечь все веб-страницы на ваш локальный компьютер (надеюсь, он не слишком большой ...), а затем вы можете искать или делать что-нибудь с файлами позже.

score 3 · Answer 2 · 2011-03-09T19:38:42

Вы в значительной степени описываете веб-сканер (то, что занимает страницу, ищет все ссылки, следует за ними и т.д.). Уже есть реализации сканеров, инструмент, который действует как сканеры (например, wget), и вопросы, связанные с ними, здесь, в переполнении стека. Например...

https://stackoverflow.com/questions/102631/how-to-write-a-crawler

Когда у вас есть что-то, что может посетить каждую страницу, вам нужен код, который будет анализировать страницу и искать интересующий вас текст.

score 3 · Answer 3 · 2011-03-09T19:38:42

wget (man-страница здесь) также может хорошо подойти как поисковый робот, посмотрите на его параметр --recursive .

score 1 · Answer 4 · 2011-03-09T19:38:42

Не решение PHP, но вы можете использовать текстовый веб-браузер Lynx с -crawl и -dump , чтобы посещать все страницы сайта и выводить их в виде текстовых файлов. Затем вы можете использовать скрипт для извлечения необходимой информации из них.

Сейчас выбран русский

получить каждую страницу под веб-сайтом

4 ответа4

Всё ещё ищете ответ? Посмотрите другие вопросы с метками java php.

получить каждую страницу под веб-сайтом

4 ответа4

Всё ещё ищете ответ? Посмотрите другие вопросы с метками java php.

Похожие