Вопросы с меткой [web-crawler]

Руководство по использованию метки web-crawler отсутствует.

69 вопросов

голоса

5ответов

27k показов

Конвертировать веб-страницы в один файл для электронной книги

Я хочу загрузить HTML-файлы (пример: http://www.brpreiss.com/books/opus6/) и присоединить их к одному HTML-формату или другому формату, который я могу использовать для чтения электронных книг. Сайты ...

ebook web-crawler

задан Hrvoje Hudo287

голосов

2ответа

680 показов

Почему @ в адресе электронной почты иногда пишется как [at] на веб-страницах?

Почему @ иногда на веб-страницах пишется как [at]? Есть ли какая-то конкретная причина?

задан Sai87

голосов

2ответа

8k показов

Как сканировать, используя wget для загрузки ТОЛЬКО HTML-файлов (игнорируйте изображения, css, js)

По сути, я хочу сканировать весь сайт с помощью Wget, но он мне нужен, чтобы НИКОГДА не загружать другие ресурсы (например, изображения, CSS, JS и т.д.). Я хочу только файлы HTML. Поиски в Google ...

wget web-crawler

задан Nathan J. Brauer326

голосов

4ответа

6k показов

Насколько "законно" использование сайта с помощью cURL?

Недавно я экспериментировал с cURL и обнаружил, что с ним можно многое сделать. Я создал небольшой скрипт, который сканирует музыкальный сайт, который воспроизводит онлайн-песни. По пути моего ...

php curl screen-scraping web-crawler

задан Chetan Sharma297

голосов

4ответа

36k показов

Использование Wget для рекурсивного сканирования сайта и загрузки изображений

Как вы указываете wget рекурсивно сканировать веб-сайт и загружать только определенные типы изображений? Я попытался использовать это для сканирования сайта и загрузки только изображений в формате ...

linux bash script web-crawler wget

задан Cerin3k

голосов

4ответа

14k показов

Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?

Мне нужно скачать все PDF-файлы, представленные на сайте. Проблема в том, что они не перечислены ни на одной странице, поэтому мне нужно что-то (программа? рамки?) сканировать сайт и скачивать файлы, ...

pdf web-crawler

голосов

1ответ

5k показов

Wget: рекурсивно получить URL-адреса с определенного сайта

Я пытаюсь рекурсивно извлечь все возможные URL-адреса (URL-адреса внутренних страниц) с веб-сайта. Можете ли вы помочь мне с Wget? или есть лучшая альтернатива для достижения этой цели? Я не хочу ...

web-crawler wget

задан abhiomkar131

голоса

1ответ

138 показов

Извлечение данных из онлайн-атласа

Есть онлайн- атлас , из которого я хотел бы извлечь значения. Атлас предоставляет инструмент («Запрос») для извлечения значений, когда вы щелкаете по местоположению или включаете регион на карте, или ...

script web-crawler screen-scraping

задан KAE751

голоса

2ответа

725 показов

Инструмент для рекурсивного преобразования файла HMTL в PDF?

Есть ли инструменты, которые не только конвертируют HTML-файл в PDF, но и следуют по ссылкам, так что в итоге я получаю 1(!) PDF-файл, который содержит все HTML-файлы?

pdf conversion web-crawler

задан user27076180

голоса

3ответа

9k показов

Можно ли обнаружить все файлы и подкаталоги URL?

Интересно, есть ли программное обеспечение, которое я могу использовать, чтобы обнаружить все файлы и подкаталоги по URL? Например, учитывая www.some-website.com/some-directory/ , я хотел бы найти ...

internet web-crawler

задан Mark18

голоса

1ответ

221 показов

Поиск страниц на веб-странице, содержащей определенную ссылку

Google делает хорошую работу по поиску соответствующей информации. Скажем, я Google: мнение FDA по ISO-9001 Затем он находит ссылку на PDF-файл на сайте fda.gov ...

pdf google-search web-crawler

задан Norfeldt119

голоса

1ответ

479 показов

Ищете веб-паук / программу загрузки, которая может использовать существующие файлы cookie браузера и обрабатывать Javascript

Я ищу программу для паука веб-сайта * и загрузки контента на диск. У меня, однако, есть следующие требования, которые приводят к отключению программ, которые я пробовал: Процесс входа на сайт ...

browser web-crawler

задан Matt1k

голоса

0ответов

130 показов

wget - ограничить количество следующих ссылок

Я хочу сделать зеркало веб-сайта, но ограничить отслеживание только конкретными ссылками. Команда: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl ...

wget web-crawler

задан QkiZ166

голоса

2ответа

105 показов

Является ли сайт, который нигде не связан, полностью скрыт?

Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т.д.). У меня ...

webserver nginx web-crawler

задан Cheesegraterr137

голоса

2ответа

12k показов

Как я могу собрать определенные данные с сайта

Я пытаюсь собрать данные с сайта для исследования. URL-адреса хорошо организованы в формате example.com/x, где x - это возрастающий номер, а все страницы структурированы одинаково. Мне просто нужно ...

microsoft-excel wget web-crawler data-mining imacros

задан Stoney54

голоса

1ответ

890 показов

Как назначить разные IP при сканировании веб-страниц

Как я могу назначить другой IP-адрес во время сканирования Я ползаю миллиарды страниц каждый день (выделение разных ip поможет блокировать генделя)

proxy ip web-crawler

задан Mounarajan118

голоса

2ответа

11k показов

Firefox аддон для загрузки всего сайта и еще один шаг

Знаете ли вы какой-либо аддон Firefox, который мог бы скачать весь сайт и скачать все сайты по ссылкам на первом сайте? Я имею в виду также все изображения и так далее.

firefox firefox-extensions web-crawler

задан oneat2k

голоса

1ответ

1k показов

Существует ли графический веб-сканер, который индексирует сайт в Excel?

Я пытаюсь воссоздать каталог продуктов для сайта электронной коммерции как таблицу Excel. По сути, я хочу получить название продукта, название бренда, цену и любые связанные теги и сохранить их в ...

microsoft-excel web-crawler

задан Utsab Saha16

голоса

3ответа

678 показов

Извлечение ссылок из числового диапазона веб-страниц

Я хотел бы извлечь ссылки из числовой последовательности страниц, как это: http://example.com/page001.html http://example.com/page002.html http://example.com/page003.html ... ...

html parsing web-crawler

голоса

1ответ

11k показов

Как сохранить все файлы / ссылки из чата / канала телеграммы?

Я хочу сохранить ВСЕ http(s) ссылки и / или файлы, опубликованные в каком-либо телеграммном чате (частном или групповом) или канале (например, в списке рассылки). Мне нужен аналог TumblOne (для ...

download-manager web-crawler bulk telegram-messenger

задан WallOfBytes107

голоса

2ответа

2k показов

Сканирование в Интернете / сканирование определенной книги Google

Для моей работы мне нужно почистить текст из большой книги в Google Книгах. Эта книга очень старая и не защищена авторским правом. Книга представляет собой газету мира. Мы будем помещать текст в базу ...

web web-crawler screen-scraping

задан user266124321

голоса

1ответ

293 показов

WGT загружает все файлы, кроме изображений, которые я хочу

У меня проблемы с использованием Wget для загрузки изображений из галереи. как начало я использую страницу обзора. он имеет большие пальцы, которые ссылаются на отдельные страницы с большими ...

script download wget web-crawler

задан Max11

голос

1ответ

959 показов

Зеркальное отображение веб-сайта, имеющего страницы, использующие простой JavaScript

Существуют простые и удобные инструменты для загрузки веб-сайтов, которые позволяют создавать локальные зеркала простых сайтов, не имеющих JavaScript-инфраструктуры. Тем не менее, иногда бывают ...

download wget javascript mirroring web-crawler

задан Lyubomyr Shaydariv370

голос

1ответ

101 показов

Как бы я соскрести текст с сайта?

Schemer закрывается, и я пытаюсь сохранить текст, потому что на сайте много хороших идей. Я хотел бы получить текст из каждой ссылки, указанной на карте сайта. Есть ли способ, которым я могу сделать ...

download web-crawler httrack

задан Matt175

голос

0ответов

42 показов

Доступ ко всем ссылкам в домене (гиперссылка недоступна)

Мне нужно иметь доступ ко всем ссылкам, таким как: http://www.thewebsitename.com/random_alphanumeric_code1.asp http://www.thewebsitename.com/random_alphanumeric_code2.asp и т. д. для данного ...

internet http web-crawler

задан rinfinity90

голос

1ответ

71 показов

Как сканировать большой список URL?

У меня есть огромный список URL-адресов. Это выглядит примерно так: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json И продолжается около 400 000 ...

web-crawler

задан DangerBob Gaming11

голос

2ответа

60 показов

Веб-сканер с опцией конвертировать ссылки

Я хотел бы сканировать резервную копию сайта, к которому я потерял доступ. Резервное копирование сайта осуществляется на subdomain.somesite.com, а ссылки на веб-странице - www.subdomain.com. это ...

wordpress web-crawler

задан qballer121

голос

1ответ

62 показов

сохранить веб-страницу со всем связанным контентом

Я пытаюсь понять, как я могу сохранить веб-страницу со всеми связанными файлами, например: http://docs.oasis-open.org/ubl/os-UBL-2.0/xsd/ Я хочу сохранить все файлы в каталоге, вроде сканера, но ...

browser firefox-extensions web-crawler

задан maazza246

голос

0ответов

540 показов

Как извлечь текст с сайтов

Я ищу способ автоматизировать извлечение текста из нескольких веб-сайтов в текстовый документ. При вставке в слово doc мне нужно его вставить, используя "форматирование слиянием". Вот как я хотел бы, ...

microsoft-word parsing web-crawler

задан Woz158

голос

1ответ

18 показов

Как мы можем узнать, какие URL можно сканировать, поскольку robots.txt сообщает, если мы не знаем, к какой папке принадлежит URL?

Я собираюсь кодировать веб-сканер, но прежде чем я захочу узнать, что будет возможно сканировать. Скажите, если я ошибаюсь, но на веб-сайтах robots.txt указаны папки, а не URL-адреса, которые можно и ...

web-crawler robots.txt

задан Yung Stuna8

голос

1ответ

1k показов

Как найти страницы, которые ссылаются на конкретную страницу?

У меня есть следующая страница http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? ...

search google-search links web-crawler

задан Norfeldt119

голос

0ответов

14 показов

Любое расширение или плагин Chrome может автоматически сохранять просмотренные веб-страницы?

Я ищу программное обеспечение или расширение для браузера (лучше с Chrome), которое может сохранять все просмотренные мной веб-страницы автоматически на локальном компьютере. Насколько я знаю, есть ...

google-chrome web-crawler extension

задан Eric Wang106

голос

0ответов

46 показов

Как загрузить сайт рекурсивно, который стоит за Google Auth?

Я хочу рекурсивно загрузить веб-сайт, который стоит за Google Auth. Я нашел много ссылок в магазине Chrome, которые позволяют мне загрузить открытую в данный момент веб-страницу, но ни одна из них не ...

google-chrome website browser-addons web-crawler

задан sydd106

голос

0ответов

37 показов

Сканирование всех доступных запросов на сайте

Я хотел бы просканировать какой-либо веб-сайт на предмет всех доступных запросов / запросов API, которые можно выполнить на этом сервере, есть ли способ сделать это? Спасибо

website web api web-crawler

задан Leg0106

голос

1ответ

102 показов

wget решает не загружаться из-за черного списка

Я пытаюсь сделать полную копию веб-сайта; например, http://vfilesarchive.bgmod.com/files/ я бегу wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/ и получать, например ...

download wget web-crawler

задан McUrgd9

голос

2ответа

2k показов

Может ли хранение 300 тыс. Файлов в одной папке вызвать проблемы?

Я сканирую большой веб-сайт (более 200 тыс. Страниц) с помощью wget (есть ли лучший инструмент, кстати?). Wget сохраняет все файлы в один каталог. Раздел HFS (я думаю), это вызовет проблемы, если у ...

macos wget hfs web-crawler

задан kolinko145

голос

3ответа

224 показов

Извлечение информации с веб-страницы в заданный интервал

У меня проблема. Мне нужно извлечь что-то вроде 800 записей, и это займет несколько дней, чтобы сделать это вручную. Информацию можно получить, вставив в форму несколько полей (всегда одинаковых), а ...

internet web-crawler

задан Jarek716

голос

2ответа

223 показов

Какие сайты отклоняют запросы сканеров?

Есть ли какой-нибудь сайт, который может быть отклонен сканером? В настоящее время я использую сканер Burp Suite для сканирования сайтов. Я хочу знать, когда и в каких случаях сканер не может ...

web web-crawler

задан rakesh9

голос

1ответ

1k показов

Spider/ сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal/Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, ...

csv drupal web-crawler

задан Tyler Clendenin106

голос

0ответов

199 показов

веб-паук / ползать, я могу это сделать или просто поисковые системы?

У меня уже был вопрос о просмотре веб-страниц с помощью wget. но когда я читаю немного больше, я понимаю, что, возможно, ищу программу для сканирования веб-страниц. в частности, часть о том, что ...

website wget web-crawler

задан fightermagethief593

голос

1ответ

575 показов

Обход большого каталога с помощью wget с двумя ссылками, указывающими на одно и то же

Я пытаюсь сканировать каталог на веб-сайте и в основном загружать все в нем. Структура достаточно проста (но есть также несколько папок), но есть одна вещь, которая заставляет wget подавиться. ...

linux wget web-crawler

задан Earlz2k

голос

1ответ

1k показов

HTTP-сканер командной строки для Windows?

Возможный дубликат: Как я могу скачать весь сайт Будет ли у кого-нибудь рекомендация для сканера веб-сайта, который может быть вызван и оснащен настройками из командной строки? Это должно быть ...

windows command-line website web-crawler

задан Pekka 웃1k

голос

1ответ

572 показов

Каков наилучший способ архивирования (паук) сайта, который будет удален?

Возможный дубликат: Как я могу скачать весь сайт Три различных блога, которые я прочитал, недавно объявили, что они будут прекращены и удалены из сети. Хотя заархивированные страницы, вероятно, будут ...

archiving web-crawler

задан Guy2k

голос

1ответ

861 показов

рекурсивная загрузка всех папок и подпапок с веб-страницы

Я хотел бы скачать каталог с веб-страницы. я пытаюсь использовать wget и crawl, но я не могу загрузить весь каталог, как это было на веб-странице или каким-либо другим способом. Предположим, что ...

wget web-crawler

задан raja6

голосов

1ответ

1k показов

Извлечь текст из Интернета

Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: обычный текст, alt и заголовок для ...

extract web-crawler

задан martin.malek131

голосов

1ответ

526 показов

Google проиндексировал несвязанную страницу

Google проиндексировал страницу на моем сайте, которая никогда не была связана ни с какой другой страницей. Никто никогда не помещал ссылку на него, и содержимое каталога не было доступно для ...

web-crawler

задан Dan Rosenstark4k

голосов

1ответ

65 показов

Как сделать пакетный ввод с веб-сервера?

Я пытаюсь загрузить файл структуры белка (например, этот) на этот сайт. Это позволяет нам загружать только одну структуру за раз. Но у меня есть сотни структурных файлов для загрузки. Есть ли способ, ...

batch script webserver web-crawler

задан lanselibai154

голосов

1ответ

298 показов

wget: отключить принудительное восстановление .html

При выполнении рекурсивной загрузки я определяю шаблон через параметр -R, чтобы wget отклонял его, но если этот файл является HTML-файлом, wget загружает файл независимо от того, соответствует он ...

html wget recursive web-crawler

задан Mike B1

голосов

0ответов

638 показов

xauth: (argv): 1: не удалось запросить расширение безопасности на дисплее ": 0"

Я пытаюсь настроить go-selenium, чтобы использовать его для тестирования веб-страниц.Я следовал инструкциям и завершил установку всех зависимостей, необходимых для веб-драйвера selenium (например, ...

xorg web-crawler xauth selenium golang

задан yogesh_desai1

голосов

1ответ

106 показов

Запишите URL в текстовый файл, который соответствует шаблону

Я пытаюсь разобрать сайт nickjr.com, в частности URL http://www.nickjr.com/paw-patrol/videos/ только для полных эпизодов. Сайт nickjr.com размещен по названию шоу, затем по играм или видео, по ...

ubuntu url parsing web-crawler

задан Christopher Johnson161