-1

Я ищу ссылки (не URL-адреса страниц), написанные в объявлениях о работе на определенном веб-сайте. Я хотел бы отсканировать веб-сайт и скопировать все строки, начинающиеся с http или www, на ВСЕХ страницах (около 1000)

Я нахожусь на Windows 7. Я не знаю, как запускать сценарии. Кто-нибудь может предложить эффективный способ сделать это?

Должен ли я сначала загрузить все HTML-страницы? Если так, то какое программное обеспечение я должен использовать для загрузки, сканирования и копирования строки?

3 ответа3

2

Если учесть, что запуск сценариев для вас не вариант, вы можете воспользоваться подходом для загрузки исходного кода страницы (щелкните правой кнопкой мыши -> загрузить исходный код). Затем вы можете открыть его с помощью, например, блокнота и искать содержимое, нажав [Ctrl] + [F].

Другой способ будет использовать URLStringGrabber:http://www.nirsoft.net/utils/url_string_grabber.html

1

Вы можете легко добиться этого в Opera, просто откройте левую панель - Ссылки, и вы можете скопировать их все в буфер обмена.

0

Я считаю, что программа WinHTTrack будет полезна для этой цели. Существует комбинация опций, которые позволяют загружать одну страницу, но изменять URL-адреса на определенный, абсолютный формат, чтобы впоследствии можно было искать необработанный HTML-код и гарантировать почти все ссылки.

  1. После задания имени зеркала и перехода к следующему экрану измените действие на «Загрузить веб-сайты».
  2. Укажите URL-адрес страницы, содержащей дополнительные веб-страницы, в поле «Веб-адреса: (URL)».
  3. Выберите Параметры -> Только эксперты
  4. Измените «Перезаписать ссылки: внутренние / внешние» на «Абсолютный URI / Абсолютный URL» (или, если вы используете страницу только для очистки URL-адресов, «Абсолютный URL / Абсолютный URL»).
  5. Нажмите ОК, затем Далее, затем, как обычно, перемещайтесь по опциям.

Более подробную информацию о HTTrack можно найти в теге .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .