У меня есть таблица Excel, которая содержит список веб-ссылок (все на один сайт, но на разных страницах). Все эти страницы имеют одинаковый макет / структуру, и я хочу получить одну и ту же информацию (разные значения на разных страницах) со всех страниц / ссылок.

Очевидно, что я могу нажать на каждую ссылку в ячейке, перейти на страницу и записать информацию вручную. Однако их сотни, и я считаю, что это можно автоматизировать.  Как я могу подойти к этому?

1 ответ1

2

Вы можете скопировать / вставить их из Excel в блокнот, который можно легко сохранить в виде простого текста. Если вы получаете одну ссылку на строку, то сохраните этот файл, например, как blah.a, и загрузите wget, тогда он больше не будет превосходным.

так что теперь скажем, что вы создали файл ссылок, тогда вы можете использовать команду под названием wget (которую вы должны загрузить и не имеет ничего общего с Excel). Допустим, в каждой строке файла есть строка, подобная http://blah.com/abc.html. Итак, вы делаете wget -i blah.a, а затем он загружает туда каждую ссылку ... но вы также должны включить задержку поэтому он не перегружает сервер, поэтому wget -i blah.a но с чем-то вроде -t -T и -w .. например, -t 1 -T 5 -w 1 (повторные попытки, тайм-аут и ожидание соответственно), поэтому настройка такие вещи, как повтор, перерыв и ожидание. Итак, wget -t 1 -T 5 -w 1 -i blah.a<ENTER> Очевидно, это в wget --help. (с еще более подробной информацией в руководстве wget, которое находится в сети). Вы можете получить Wget, например, с Cygwin.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .