Вопросы с меткой [web-crawler]

Руководство по использованию метки web-crawler отсутствует.

22
голоса
5ответов
27k показов

Конвертировать веб-страницы в один файл для электронной книги

Я хочу загрузить HTML-файлы (пример: http://www.brpreiss.com/books/opus6/) и присоединить их к одному HTML-формату или другому формату, который я могу использовать для чтения электронных книг. Сайты ...
15
голосов
2ответа
680 показов

Почему @ в адресе электронной почты иногда пишется как [at] на веб-страницах?

Почему @ иногда на веб-страницах пишется как [at]? Есть ли какая-то конкретная причина?
14
голосов
2ответа
8k показов

Как сканировать, используя wget для загрузки ТОЛЬКО HTML-файлов (игнорируйте изображения, css, js)

По сути, я хочу сканировать весь сайт с помощью Wget, но он мне нужен, чтобы НИКОГДА не загружать другие ресурсы (например, изображения, CSS, JS и т.д.). Я хочу только файлы HTML. Поиски в Google ...
12
голосов
4ответа
6k показов

Насколько "законно" использование сайта с помощью cURL?

Недавно я экспериментировал с cURL и обнаружил, что с ним можно многое сделать. Я создал небольшой скрипт, который сканирует музыкальный сайт, который воспроизводит онлайн-песни. По пути моего ...
11
голосов
4ответа
36k показов

Использование Wget для рекурсивного сканирования сайта и загрузки изображений

Как вы указываете wget рекурсивно сканировать веб-сайт и загружать только определенные типы изображений? Я попытался использовать это для сканирования сайта и загрузки только изображений в формате ...
6
голосов
4ответа
14k показов

Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?

Мне нужно скачать все PDF-файлы, представленные на сайте. Проблема в том, что они не перечислены ни на одной странице, поэтому мне нужно что-то (программа? рамки?) сканировать сайт и скачивать файлы, ...
6
голосов
1ответ
5k показов

Wget: рекурсивно получить URL-адреса с определенного сайта

Я пытаюсь рекурсивно извлечь все возможные URL-адреса (URL-адреса внутренних страниц) с веб-сайта. Можете ли вы помочь мне с Wget? или есть лучшая альтернатива для достижения этой цели? Я не хочу ...
4
голоса
1ответ
138 показов

Извлечение данных из онлайн-атласа

Есть онлайн- атлас , из которого я хотел бы извлечь значения. Атлас предоставляет инструмент («Запрос») для извлечения значений, когда вы щелкаете по местоположению или включаете регион на карте, или ...
4
голоса
2ответа
725 показов

Инструмент для рекурсивного преобразования файла HMTL в PDF?

Есть ли инструменты, которые не только конвертируют HTML-файл в PDF, но и следуют по ссылкам, так что в итоге я получаю 1(!) PDF-файл, который содержит все HTML-файлы?
3
голоса
3ответа
9k показов

Можно ли обнаружить все файлы и подкаталоги URL?

Интересно, есть ли программное обеспечение, которое я могу использовать, чтобы обнаружить все файлы и подкаталоги по URL? Например, учитывая www.some-website.com/some-directory/ , я хотел бы найти ...
3
голоса
1ответ
221 показов

Поиск страниц на веб-странице, содержащей определенную ссылку

Google делает хорошую работу по поиску соответствующей информации. Скажем, я Google: мнение FDA по ISO-9001 Затем он находит ссылку на PDF-файл на сайте fda.gov ...
2
голоса
1ответ
479 показов

Ищете веб-паук / программу загрузки, которая может использовать существующие файлы cookie браузера и обрабатывать Javascript

Я ищу программу для паука веб-сайта * и загрузки контента на диск. У меня, однако, есть следующие требования, которые приводят к отключению программ, которые я пробовал: Процесс входа на сайт ...
2
голоса
0ответов
130 показов

wget - ограничить количество следующих ссылок

Я хочу сделать зеркало веб-сайта, но ограничить отслеживание только конкретными ссылками. Команда: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl ...
2
голоса
2ответа
105 показов

Является ли сайт, который нигде не связан, полностью скрыт?

Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т.д.). У меня ...
2
голоса
2ответа
12k показов

Как я могу собрать определенные данные с сайта

Я пытаюсь собрать данные с сайта для исследования. URL-адреса хорошо организованы в формате example.com/x, где x - это возрастающий номер, а все страницы структурированы одинаково. Мне просто нужно ...
2
голоса
1ответ
890 показов

Как назначить разные IP при сканировании веб-страниц

Как я могу назначить другой IP-адрес во время сканирования Я ползаю миллиарды страниц каждый день (выделение разных ip поможет блокировать генделя)
2
голоса
2ответа
11k показов

Firefox аддон для загрузки всего сайта и еще один шаг

Знаете ли вы какой-либо аддон Firefox, который мог бы скачать весь сайт и скачать все сайты по ссылкам на первом сайте? Я имею в виду также все изображения и так далее.
2
голоса
1ответ
1k показов

Существует ли графический веб-сканер, который индексирует сайт в Excel?

Я пытаюсь воссоздать каталог продуктов для сайта электронной коммерции как таблицу Excel. По сути, я хочу получить название продукта, название бренда, цену и любые связанные теги и сохранить их в ...
2
голоса
3ответа
678 показов

Извлечение ссылок из числового диапазона веб-страниц

Я хотел бы извлечь ссылки из числовой последовательности страниц, как это: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... ...
2
голоса
1ответ
11k показов

Как сохранить все файлы / ссылки из чата / канала телеграммы?

Я хочу сохранить ВСЕ http(s) ссылки и / или файлы, опубликованные в каком-либо телеграммном чате (частном или групповом) или канале (например, в списке рассылки). Мне нужен аналог TumblOne (для ...
2
голоса
2ответа
2k показов

Сканирование в Интернете / сканирование определенной книги Google

Для моей работы мне нужно почистить текст из большой книги в Google Книгах. Эта книга очень старая и не защищена авторским правом. Книга представляет собой газету мира. Мы будем помещать текст в базу ...
2
голоса
1ответ
293 показов

WGT загружает все файлы, кроме изображений, которые я хочу

У меня проблемы с использованием Wget для загрузки изображений из галереи. как начало я использую страницу обзора. он имеет большие пальцы, которые ссылаются на отдельные страницы с большими ...
1
голос
1ответ
959 показов

Зеркальное отображение веб-сайта, имеющего страницы, использующие простой JavaScript

Существуют простые и удобные инструменты для загрузки веб-сайтов, которые позволяют создавать локальные зеркала простых сайтов, не имеющих JavaScript-инфраструктуры. Тем не менее, иногда бывают ...
1
голос
1ответ
101 показов

Как бы я соскрести текст с сайта?

Schemer закрывается, и я пытаюсь сохранить текст, потому что на сайте много хороших идей. Я хотел бы получить текст из каждой ссылки, указанной на карте сайта. Есть ли способ, которым я могу сделать ...
1
голос
0ответов
42 показов

Доступ ко всем ссылкам в домене (гиперссылка недоступна)

Мне нужно иметь доступ ко всем ссылкам, таким как: http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp и т. д. для данного ...
1
голос
1ответ
71 показов

Как сканировать большой список URL?

У меня есть огромный список URL-адресов. Это выглядит примерно так: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json И продолжается около 400 000 ...
1
голос
2ответа
60 показов

Веб-сканер с опцией конвертировать ссылки

Я хотел бы сканировать резервную копию сайта, к которому я потерял доступ. Резервное копирование сайта осуществляется на subdomain.somesite.com, а ссылки на веб-странице - www.subdomain.com. это ...
1
голос
1ответ
62 показов

сохранить веб-страницу со всем связанным контентом

Я пытаюсь понять, как я могу сохранить веб-страницу со всеми связанными файлами, например: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Я хочу сохранить все файлы в каталоге, вроде сканера, но ...
1
голос
0ответов
540 показов

Как извлечь текст с сайтов

Я ищу способ автоматизировать извлечение текста из нескольких веб-сайтов в текстовый документ. При вставке в слово doc мне нужно его вставить, используя "форматирование слиянием". Вот как я хотел бы, ...
1
голос
1ответ
18 показов

Как мы можем узнать, какие URL можно сканировать, поскольку robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?

Я собираюсь кодировать веб-сканер, но прежде чем я захочу узнать, что будет возможно сканировать. Скажите, если я ошибаюсь, но на веб-сайтах robots.txt указаны папки, а не URL-адреса, которые можно и ...
1
голос
1ответ
1k показов

Как найти страницы, которые ссылаются на конкретную страницу?

У меня есть следующая страница http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? ...
1
голос
0ответов
14 показов

Любое расширение или плагин Chrome может автоматически сохранять просмотренные веб-страницы?

Я ищу программное обеспечение или расширение для браузера (лучше с Chrome), которое может сохранять все просмотренные мной веб-страницы автоматически на локальном компьютере. Насколько я знаю, есть ...
1
голос
0ответов
46 показов

Как загрузить сайт рекурсивно, который стоит за Google Auth?

Я хочу рекурсивно загрузить веб-сайт, который стоит за Google Auth. Я нашел много ссылок в магазине Chrome, которые позволяют мне загрузить открытую в данный момент веб-страницу, но ни одна из них не ...
1
голос
0ответов
37 показов

Сканирование всех доступных запросов на сайте

Я хотел бы просканировать какой-либо веб-сайт на предмет всех доступных запросов / запросов API, которые можно выполнить на этом сервере, есть ли способ сделать это? Спасибо
1
голос
1ответ
102 показов

wget решает не загружаться из-за черного списка

Я пытаюсь сделать полную копию веб-сайта; например, http://vfilesarchive.bgmod.com/files/ я бегу wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ и получать, например ...
1
голос
2ответа
2k показов

Может ли хранение 300 тыс. Файлов в одной папке вызвать проблемы?

Я сканирую большой веб-сайт (более 200 тыс. Страниц) с помощью wget (есть ли лучший инструмент, кстати?). Wget сохраняет все файлы в один каталог. Раздел HFS (я думаю), это вызовет проблемы, если у ...
1
голос
3ответа
224 показов

Извлечение информации с веб-страницы в заданный интервал

У меня проблема. Мне нужно извлечь что-то вроде 800 записей, и это займет несколько дней, чтобы сделать это вручную. Информацию можно получить, вставив в форму несколько полей (всегда одинаковых), а ...
1
голос
2ответа
223 показов

Какие сайты отклоняют запросы сканеров?

Есть ли какой-нибудь сайт, который может быть отклонен сканером? В настоящее время я использую сканер Burp Suite для сканирования сайтов. Я хочу знать, когда и в каких случаях сканер не может ...
1
голос
1ответ
1k показов

Spider/ сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal/Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, ...
1
голос
0ответов
199 показов

веб-паук / ползать, я могу это сделать или просто поисковые системы?

У меня уже был вопрос о просмотре веб-страниц с помощью wget. но когда я читаю немного больше, я понимаю, что, возможно, ищу программу для сканирования веб-страниц. в частности, часть о том, что ...
1
голос
1ответ
575 показов

Обход большого каталога с помощью wget с двумя ссылками, указывающими на одно и то же

Я пытаюсь сканировать каталог на веб-сайте и в основном загружать все в нем. Структура достаточно проста (но есть также несколько папок), но есть одна вещь, которая заставляет wget подавиться. ...
1
голос
1ответ
1k показов

HTTP-сканер командной строки для Windows?

Возможный дубликат: Как я могу скачать весь сайт Будет ли у кого-нибудь рекомендация для сканера веб-сайта, который может быть вызван и оснащен настройками из командной строки? Это должно быть ...
1
голос
1ответ
572 показов

Каков наилучший способ архивирования (паук) сайта, который будет удален?

Возможный дубликат: Как я могу скачать весь сайт Три различных блога, которые я прочитал, недавно объявили, что они будут прекращены и удалены из сети. Хотя заархивированные страницы, вероятно, будут ...
1
голос
1ответ
861 показов

рекурсивная загрузка всех папок и подпапок с веб-страницы

Я хотел бы скачать каталог с веб-страницы. я пытаюсь использовать wget и crawl, но я не могу загрузить весь каталог, как это было на веб-странице или каким-либо другим способом. Предположим, что ...
0
голосов
1ответ
1k показов

Извлечь текст из Интернета

Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: обычный текст, alt и заголовок для ...
0
голосов
1ответ
526 показов

Google проиндексировал несвязанную страницу

Google проиндексировал страницу на моем сайте, которая никогда не была связана ни с какой другой страницей. Никто никогда не помещал ссылку на него, и содержимое каталога не было доступно для ...
0
голосов
1ответ
65 показов

Как сделать пакетный ввод с веб-сервера?

Я пытаюсь загрузить файл структуры белка (например, этот) на этот сайт. Это позволяет нам загружать только одну структуру за раз. Но у меня есть сотни структурных файлов для загрузки. Есть ли способ, ...
0
голосов
1ответ
298 показов

wget: отключить принудительное восстановление .html

При выполнении рекурсивной загрузки я определяю шаблон через параметр -R, чтобы wget отклонял его, но если этот файл является HTML-файлом, wget загружает файл независимо от того, соответствует он ...
0
голосов
0ответов
638 показов

xauth: (argv): 1: не удалось запросить расширение безопасности на дисплее ": 0"

Я пытаюсь настроить go-selenium, чтобы использовать его для тестирования веб-страниц.Я следовал инструкциям и завершил установку всех зависимостей, необходимых для веб-драйвера selenium (например, ...
0
голосов
1ответ
106 показов

Запишите URL в текстовый файл, который соответствует шаблону

Я пытаюсь разобрать сайт nickjr.com, в частности URL http://www.nickjr.com/paw-patrol/videos/ только для полных эпизодов. Сайт nickjr.com размещен по названию шоу, затем по играм или видео, по ...