Мне нужна программа, чтобы получить все веб-страницы под веб-сайтом. Сайт на китайском, я хочу выложить все эти английские слова. Тогда я смогу извлечь всю необходимую мне информацию. Есть идеи для этого? Есть ли программное обеспечение для этой цели?

Если НЕТ, я хотел бы написать один. Какие-либо предложения?

Большое спасибо.

4 ответа4

10

Используйте, например, wget -r http://site.to.copy.com чтобы рекурсивно извлечь все веб-страницы на ваш локальный компьютер (надеюсь, он не слишком большой ...), а затем вы можете искать или делать что-нибудь с файлами позже.

3

Вы в значительной степени описываете веб-сканер (то, что занимает страницу, ищет все ссылки, следует за ними и т.д.). Уже есть реализации сканеров, инструмент, который действует как сканеры (например, wget), и вопросы, связанные с ними, здесь, в переполнении стека. Например...

https://stackoverflow.com/questions/102631/how-to-write-a-crawler

Когда у вас есть что-то, что может посетить каждую страницу, вам нужен код, который будет анализировать страницу и искать интересующий вас текст.

3

wget (man-страница здесь) также может хорошо подойти как поисковый робот, посмотрите на его параметр --recursive .

1

Не решение PHP, но вы можете использовать текстовый веб-браузер Lynx с -crawl и -dump , чтобы посещать все страницы сайта и выводить их в виде текстовых файлов. Затем вы можете использовать скрипт для извлечения необходимой информации из них.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .