"Умный" способ сканирования Интернета

Question

У меня есть проект, в котором я должен сканировать сеть на предмет lyrics , я выполняю depth-first search и делаю базу данных в списке (который содержит вложенные списки, которые впоследствии будут сохранены в файле). Моя идея состоит в том, чтобы получить HTML-содержимое веб-сайта и сохранить его в файле, а затем проанализировать текст песни. Но проблема в том, что он очень медленный и мне не нужны страницы (рекламные ссылки) Есть ли какое-то решение или "лучше" было внедрить бота?

score 1 · Accepted Answer · 2011-03-09T19:38:42

Чтобы дать конкретные рекомендации, мы должны увидеть ваш код. Тем не менее, разбор HTML является очень сложной проблемой; Обязательно используйте существующую библиотеку синтаксического анализа и не пытайтесь создать свою собственную.

В целом, веб-сканеры лучше реализовывать с использованием поиска в ширину, а не в глубину. Поиск в глубину часто делает много звонков в один и тот же домен и путь; это может быть обнаружено веб-сайтами, и ваш сканер может быть заблокирован или даже заблокирован. Сканеры, работающие в ширину, избегают этого и имеют больше возможностей для оптимизации; например, признание того, что два сайта являются копиями друг друга, и отказ от более медленного сайта.

score 0 · Answer 2 · 2011-03-09T19:38:42

Тексты часто бывают TXT, а реклама - нет, поэтому вы можете ограничить поиск текстом. Негативным аспектом этого является то, что вы наверняка пропустите текст HTML.

Сейчас выбран русский

"Умный" способ сканирования Интернета

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками python database web-crawler bots.

"Умный" способ сканирования Интернета

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками python database web-crawler bots.

Похожие