Вопросы с меткой [web-crawler]
Руководство по использованию метки web-crawler отсутствует.
69 вопросов
22
голоса
5ответов
27k показов
Конвертировать веб-страницы в один файл для электронной книги
Я хочу загрузить HTML-файлы (пример: http://www.brpreiss.com/books/opus6/) и присоединить их к одному HTML-формату или другому формату, который я могу использовать для чтения электронных книг. Сайты ...
15
голосов
2ответа
680 показов
Почему @ в адресе электронной почты иногда пишется как [at] на веб-страницах?
Почему @ иногда на веб-страницах пишется как [at]? Есть ли какая-то конкретная причина?
14
голосов
2ответа
8k показов
Как сканировать, используя wget для загрузки ТОЛЬКО HTML-файлов (игнорируйте изображения, css, js)
По сути, я хочу сканировать весь сайт с помощью Wget, но он мне нужен, чтобы НИКОГДА не загружать другие ресурсы (например, изображения, CSS, JS и т.д.). Я хочу только файлы HTML. Поиски в Google ...
12
голосов
4ответа
6k показов
Насколько "законно" использование сайта с помощью cURL?
Недавно я экспериментировал с cURL и обнаружил, что с ним можно многое сделать. Я создал небольшой скрипт, который сканирует музыкальный сайт, который воспроизводит онлайн-песни. По пути моего ...
11
голосов
4ответа
36k показов
Использование Wget для рекурсивного сканирования сайта и загрузки изображений
Как вы указываете wget рекурсивно сканировать веб-сайт и загружать только определенные типы изображений? Я попытался использовать это для сканирования сайта и загрузки только изображений в формате ...
6
голосов
4ответа
14k показов
Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?
Мне нужно скачать все PDF-файлы, представленные на сайте. Проблема в том, что они не перечислены ни на одной странице, поэтому мне нужно что-то (программа? рамки?) сканировать сайт и скачивать файлы, ...
6
голосов
1ответ
5k показов
Wget: рекурсивно получить URL-адреса с определенного сайта
Я пытаюсь рекурсивно извлечь все возможные URL-адреса (URL-адреса внутренних страниц) с веб-сайта. Можете ли вы помочь мне с Wget? или есть лучшая альтернатива для достижения этой цели? Я не хочу ...
4
голоса
1ответ
138 показов
Извлечение данных из онлайн-атласа
Есть онлайн- атлас , из которого я хотел бы извлечь значения. Атлас предоставляет инструмент («Запрос») для извлечения значений, когда вы щелкаете по местоположению или включаете регион на карте, или ...
4
голоса
2ответа
725 показов
Инструмент для рекурсивного преобразования файла HMTL в PDF?
Есть ли инструменты, которые не только конвертируют HTML-файл в PDF, но и следуют по ссылкам, так что в итоге я получаю 1(!) PDF-файл, который содержит все HTML-файлы?
3
голоса
3ответа
9k показов
Можно ли обнаружить все файлы и подкаталоги URL?
Интересно, есть ли программное обеспечение, которое я могу использовать, чтобы обнаружить все файлы и подкаталоги по URL? Например, учитывая www.some-website.com/some-directory/ , я хотел бы найти ...
3
голоса
1ответ
221 показов
Поиск страниц на веб-странице, содержащей определенную ссылку
Google делает хорошую работу по поиску соответствующей информации. Скажем, я Google: мнение FDA по ISO-9001 Затем он находит ссылку на PDF-файл на сайте fda.gov ...
2
голоса
1ответ
479 показов
Ищете веб-паук / программу загрузки, которая может использовать существующие файлы cookie браузера и обрабатывать Javascript
Я ищу программу для паука веб-сайта * и загрузки контента на диск. У меня, однако, есть следующие требования, которые приводят к отключению программ, которые я пробовал: Процесс входа на сайт ...
2
голоса
0ответов
130 показов
wget - ограничить количество следующих ссылок
Я хочу сделать зеркало веб-сайта, но ограничить отслеживание только конкретными ссылками. Команда: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl ...
2
голоса
2ответа
105 показов
Является ли сайт, который нигде не связан, полностью скрыт?
Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т.д.). У меня ...
2
голоса
2ответа
12k показов
Как я могу собрать определенные данные с сайта
Я пытаюсь собрать данные с сайта для исследования. URL-адреса хорошо организованы в формате example.com/x, где x - это возрастающий номер, а все страницы структурированы одинаково. Мне просто нужно ...
2
голоса
1ответ
890 показов
Как назначить разные IP при сканировании веб-страниц
Как я могу назначить другой IP-адрес во время сканирования Я ползаю миллиарды страниц каждый день (выделение разных ip поможет блокировать генделя)
2
голоса
2ответа
11k показов
Firefox аддон для загрузки всего сайта и еще один шаг
Знаете ли вы какой-либо аддон Firefox, который мог бы скачать весь сайт и скачать все сайты по ссылкам на первом сайте? Я имею в виду также все изображения и так далее.
2
голоса
1ответ
1k показов
Существует ли графический веб-сканер, который индексирует сайт в Excel?
Я пытаюсь воссоздать каталог продуктов для сайта электронной коммерции как таблицу Excel. По сути, я хочу получить название продукта, название бренда, цену и любые связанные теги и сохранить их в ...
2
голоса
3ответа
678 показов
Извлечение ссылок из числового диапазона веб-страниц
Я хотел бы извлечь ссылки из числовой последовательности страниц, как это: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... ...
2
голоса
1ответ
11k показов
Как сохранить все файлы / ссылки из чата / канала телеграммы?
Я хочу сохранить ВСЕ http(s) ссылки и / или файлы, опубликованные в каком-либо телеграммном чате (частном или групповом) или канале (например, в списке рассылки). Мне нужен аналог TumblOne (для ...
2
голоса
2ответа
2k показов
Сканирование в Интернете / сканирование определенной книги Google
Для моей работы мне нужно почистить текст из большой книги в Google Книгах. Эта книга очень старая и не защищена авторским правом. Книга представляет собой газету мира. Мы будем помещать текст в базу ...
2
голоса
1ответ
293 показов
WGT загружает все файлы, кроме изображений, которые я хочу
У меня проблемы с использованием Wget для загрузки изображений из галереи. как начало я использую страницу обзора. он имеет большие пальцы, которые ссылаются на отдельные страницы с большими ...
1
голос
1ответ
959 показов
Зеркальное отображение веб-сайта, имеющего страницы, использующие простой JavaScript
Существуют простые и удобные инструменты для загрузки веб-сайтов, которые позволяют создавать локальные зеркала простых сайтов, не имеющих JavaScript-инфраструктуры. Тем не менее, иногда бывают ...
1
голос
1ответ
101 показов
Как бы я соскрести текст с сайта?
Schemer закрывается, и я пытаюсь сохранить текст, потому что на сайте много хороших идей. Я хотел бы получить текст из каждой ссылки, указанной на карте сайта. Есть ли способ, которым я могу сделать ...
1
голос
0ответов
42 показов
Доступ ко всем ссылкам в домене (гиперссылка недоступна)
Мне нужно иметь доступ ко всем ссылкам, таким как: http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp и т. д. для данного ...
1
голос
1ответ
71 показов
Как сканировать большой список URL?
У меня есть огромный список URL-адресов. Это выглядит примерно так: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json И продолжается около 400 000 ...
1
голос
2ответа
60 показов
Веб-сканер с опцией конвертировать ссылки
Я хотел бы сканировать резервную копию сайта, к которому я потерял доступ. Резервное копирование сайта осуществляется на subdomain.somesite.com, а ссылки на веб-странице - www.subdomain.com. это ...
1
голос
1ответ
62 показов
сохранить веб-страницу со всем связанным контентом
Я пытаюсь понять, как я могу сохранить веб-страницу со всеми связанными файлами, например: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Я хочу сохранить все файлы в каталоге, вроде сканера, но ...
1
голос
0ответов
540 показов
Как извлечь текст с сайтов
Я ищу способ автоматизировать извлечение текста из нескольких веб-сайтов в текстовый документ. При вставке в слово doc мне нужно его вставить, используя "форматирование слиянием". Вот как я хотел бы, ...
1
голос
1ответ
18 показов
Как мы можем узнать, какие URL можно сканировать, поскольку robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?
Я собираюсь кодировать веб-сканер, но прежде чем я захочу узнать, что будет возможно сканировать. Скажите, если я ошибаюсь, но на веб-сайтах robots.txt указаны папки, а не URL-адреса, которые можно и ...
1
голос
1ответ
1k показов
Как найти страницы, которые ссылаются на конкретную страницу?
У меня есть следующая страница http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? ...
1
голос
0ответов
14 показов
Любое расширение или плагин Chrome может автоматически сохранять просмотренные веб-страницы?
Я ищу программное обеспечение или расширение для браузера (лучше с Chrome), которое может сохранять все просмотренные мной веб-страницы автоматически на локальном компьютере. Насколько я знаю, есть ...
1
голос
0ответов
46 показов
Как загрузить сайт рекурсивно, который стоит за Google Auth?
Я хочу рекурсивно загрузить веб-сайт, который стоит за Google Auth. Я нашел много ссылок в магазине Chrome, которые позволяют мне загрузить открытую в данный момент веб-страницу, но ни одна из них не ...
1
голос
0ответов
37 показов
Сканирование всех доступных запросов на сайте
Я хотел бы просканировать какой-либо веб-сайт на предмет всех доступных запросов / запросов API, которые можно выполнить на этом сервере, есть ли способ сделать это? Спасибо
1
голос
1ответ
102 показов
wget решает не загружаться из-за черного списка
Я пытаюсь сделать полную копию веб-сайта; например, http://vfilesarchive.bgmod.com/files/ я бегу wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ и получать, например ...
1
голос
2ответа
2k показов
Может ли хранение 300 тыс. Файлов в одной папке вызвать проблемы?
Я сканирую большой веб-сайт (более 200 тыс. Страниц) с помощью wget (есть ли лучший инструмент, кстати?). Wget сохраняет все файлы в один каталог. Раздел HFS (я думаю), это вызовет проблемы, если у ...
1
голос
3ответа
224 показов
Извлечение информации с веб-страницы в заданный интервал
У меня проблема. Мне нужно извлечь что-то вроде 800 записей, и это займет несколько дней, чтобы сделать это вручную. Информацию можно получить, вставив в форму несколько полей (всегда одинаковых), а ...
1
голос
2ответа
223 показов
Какие сайты отклоняют запросы сканеров?
Есть ли какой-нибудь сайт, который может быть отклонен сканером? В настоящее время я использую сканер Burp Suite для сканирования сайтов. Я хочу знать, когда и в каких случаях сканер не может ...
1
голос
1ответ
1k показов
Spider/ сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV
Я перехожу со старого сайта корзины покупок ASP на сайт Drupal/Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, ...
1
голос
0ответов
199 показов
веб-паук / ползать, я могу это сделать или просто поисковые системы?
У меня уже был вопрос о просмотре веб-страниц с помощью wget. но когда я читаю немного больше, я понимаю, что, возможно, ищу программу для сканирования веб-страниц. в частности, часть о том, что ...
1
голос
1ответ
575 показов
Обход большого каталога с помощью wget с двумя ссылками, указывающими на одно и то же
Я пытаюсь сканировать каталог на веб-сайте и в основном загружать все в нем. Структура достаточно проста (но есть также несколько папок), но есть одна вещь, которая заставляет wget подавиться. ...
1
голос
1ответ
1k показов
HTTP-сканер командной строки для Windows?
Возможный дубликат: Как я могу скачать весь сайт Будет ли у кого-нибудь рекомендация для сканера веб-сайта, который может быть вызван и оснащен настройками из командной строки? Это должно быть ...
1
голос
1ответ
572 показов
Каков наилучший способ архивирования (паук) сайта, который будет удален?
Возможный дубликат: Как я могу скачать весь сайт Три различных блога, которые я прочитал, недавно объявили, что они будут прекращены и удалены из сети. Хотя заархивированные страницы, вероятно, будут ...
1
голос
1ответ
861 показов
рекурсивная загрузка всех папок и подпапок с веб-страницы
Я хотел бы скачать каталог с веб-страницы. я пытаюсь использовать wget и crawl, но я не могу загрузить весь каталог, как это было на веб-странице или каким-либо другим способом. Предположим, что ...
0
голосов
1ответ
1k показов
Извлечь текст из Интернета
Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: обычный текст, alt и заголовок для ...
0
голосов
1ответ
526 показов
Google проиндексировал несвязанную страницу
Google проиндексировал страницу на моем сайте, которая никогда не была связана ни с какой другой страницей. Никто никогда не помещал ссылку на него, и содержимое каталога не было доступно для ...
0
голосов
1ответ
65 показов
Как сделать пакетный ввод с веб-сервера?
Я пытаюсь загрузить файл структуры белка (например, этот) на этот сайт. Это позволяет нам загружать только одну структуру за раз. Но у меня есть сотни структурных файлов для загрузки. Есть ли способ, ...
0
голосов
1ответ
298 показов
wget: отключить принудительное восстановление .html
При выполнении рекурсивной загрузки я определяю шаблон через параметр -R, чтобы wget отклонял его, но если этот файл является HTML-файлом, wget загружает файл независимо от того, соответствует он ...
0
голосов
0ответов
638 показов
xauth: (argv): 1: не удалось запросить расширение безопасности на дисплее ": 0"
Я пытаюсь настроить go-selenium, чтобы использовать его для тестирования веб-страниц.Я следовал инструкциям и завершил установку всех зависимостей, необходимых для веб-драйвера selenium (например, ...
0
голосов
1ответ
106 показов
Запишите URL в текстовый файл, который соответствует шаблону
Я пытаюсь разобрать сайт nickjr.com, в частности URL http://www.nickjr.com/paw-patrol/videos/ только для полных эпизодов. Сайт nickjr.com размещен по названию шоу, затем по играм или видео, по ...