Вопросы с меткой [web-crawler]

Руководство по использованию метки web-crawler отсутствует.

0
голосов
0ответов
60 показов

Centos 7 - Apache запрещает мой сканер безопасности веб-приложений

Я пытаюсь запустить сканирование своего веб-сайта с помощью Vega, но после того, как сканер отправил пару запросов, мой IP-адрес блокируется на 30 минут. Это не ошибка fail2ban(который установлен), ...
0
голосов
0ответов
244 показов

Минимальное использование памяти в безголовом Firefox?

Я планирую запускать бот во многих отдельных параллельных экземплярах и хотел бы сохранить использование памяти на минимальном уровне. Боту нужен только функциональный JS и загрузка страницы, но ...
0
голосов
1ответ
215 показов

Wget получает ответ 403

Я использую API, который имеет некоторое количество запросов в час. Но мой скрипт делает все за один раз, поэтому я теряю около 1/3 запросов, потому что получаю 403. Есть ли способ проверить реакцию ...
0
голосов
1ответ
1k показов

Как сканировать свой собственный сайт, чтобы сохранить в кеш

Я использую Squid, программу для кеширования, для кеширования моего сайта. Однако для этого необходимо, чтобы к каждой странице обращались как минимум один раз, прежде чем Squid сможет ее кешировать. ...
0
голосов
1ответ
59 показов

Как я могу искать в Интернете сайты, содержащие ключевые слова в HTML (не текстовые)?

Я хочу искать в Интернете сайты, используя определенный виджет. Google уже просканировал Интернет, но его стандартный поиск обрезает любые фрагменты кода и оставляет для поиска только текст, читаемый ...
0
голосов
1ответ
479 показов

Как я могу рекурсивно сканировать все файлы на файловом сервере

Есть тысячи файлов на файловом сервере http://xxxx.com Я пытался сканировать его с помощью инструмента httrack Это не работает, есть ли альтернативный инструмент, который может рекурсивно загружать ...
0
голосов
1ответ
2k показов

Отсканируйте и сопоставьте веб-сайт и зарегистрируйте все ссылки, в которых есть «конкретная строка»

Существует ли инструмент, который сканирует веб-сайт и регистрирует все ссылки, в которых есть определенная строка? Я вижу Teleport Pro, но похоже, что он делает копию сайта, но мне нужны только ...
0
голосов
1ответ
136 показов

Почему мой личный веб-сайт привлекает посетителей по таинственным URL-адресам?

Недавно я обновил журнал посещений моего сайта и, убедившись, что он работает должным образом, заметил, что я получаю посетителей по URL-адресам, которые мне не принадлежат. Я был удивлен, даже ...
0
голосов
5ответов
13k показов

Сканирующий сайт / паук, чтобы получить карту сайта

Мне нужно получить целую карту сайта в формате, подобном: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ ...
0
голосов
0ответов
65 показов

импорт веб-скрапинга на локальный сайт

Я ищу способ поиска определенного продукта на веб-сайте и извлечения данных из него, но без перехода непосредственно на этот веб-сайт, например, с локального веб-сайта, который запрашивает информацию ...
0
голосов
2ответа
2k показов

Массовое скачивание потокового видео

Я смотрю серию видео: http://english.cntv.cn/program/learnchinese/growingwithchinese/index.shtml Я попробовал несколько плагинов и утилит для скачивания эпизодов с переменным успехом. Часть проблемы ...
0
голосов
1ответ
656 показов

Windows - сканировать URL и захватывать ссылки

Недавно я зарегистрировался на крупном видео-сайте в качестве премиум-члена и хочу создать список видеофайлов на сайте, чтобы я мог поместить их в свой менеджер загрузок и загрузить видео-премиум на ...
0
голосов
1ответ
1k показов

Я установил и запустил Heritrix Web Crawler. Он хранит данные в файлах .arc.gz

Если бы вы использовали Heritrix Web Crawler, я был бы очень признателен за вашу помощь. 3 вопроса: Файл дуги, вероятно, содержит исходные коды многих страниц там. Как я узнаю, что есть что? Как мне ...
-1
голос
1ответ
939 показов

Сканирование сайта для файлов

Привет! Я хотел бы загрузить все PDF-файлы с http://www.allitebooks.com/ и использовать wget. моя команда "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -r но я считаю, что пока она не ...
-1
голос
2ответа
343 показов

"Умный" способ сканирования Интернета

У меня есть проект, в котором я должен сканировать сеть на предмет lyrics , я выполняю depth-first search и делаю базу данных в списке (который содержит вложенные списки, которые впоследствии будут ...
-1
голос
1ответ
423 показов

Перечислите все ссылки одного сайта на другой сайт

Есть два сайта. 1) www.aa.com 2) www.bb.com Сейчас на bb.com так много ссылок на aa.com и его веб-страницы, как aa.com/blhahhaa.html aa.com/beautifulday.html aa.com так что я хочу узнать этот список. ...
-1
голос
1ответ
303 показов

Составление списка ссылок на сайте и их действительность

Я хотел бы просканировать свой веб-сайт и создать список внутренних и исходящих ссылок, а также их конечный пункт назначения и HTTP-код (по крайней мере, для внутренних ссылок). Как я могу это ...
-3
голоса
3ответа
439 показов

Как внедрить механизмы противоскребания для моего сайта на Amazon S3?

У меня есть несколько статических веб-страниц, размещенных на Amazon S3, которые очень часто обновляются. Я хочу внедрить несколько механизмов предотвращения взлома, таких как запрет IP-адресов, ...
-3
голоса
2ответа
818 показов

Как я могу очистить только данные слова с веб-сайта?

Я хочу скачать все содержание слова с определенного сайта. Сохраните результаты в MS Word, Excel или Notepad и проверьте, какие слова повторяются чаще всего и сколько раз.