1

Я ищу способ получить все изображения из блога, даже если они не видны (встроены) в самом блоге. Другими словами, изображения, которые загружены на веб-страницу, но еще не встроены в статью.

Давайте у кого-то есть блог: bestblogever.com/

И он опубликовал статью: bestblogever.com/24/11/

На этой статье есть только одно изображение: bestblogever.com/24/11/IMG_23.jpg

Я знаю, что каталог bestblogever.com/24/11/ содержит больше изображений, я просто не знаю URL. Есть ли способ (желательно) программное обеспечение, которое может искать и загружать все не зарегистрированные изображения? Например:

bestblogever.com/24/11/IMG_23.jpg

bestblogever.com/24/11/IMG_55.jpg

bestblogever.com/24/11/IMG_08.jpg

bestblogever.com/24/11/IMG_65.jpg

Я попробовал HTTrack, но кажется, что он захватывает только те изображения, которые действительно отображаются на веб-странице.

1 ответ1

0

На нашем дочернем сайте StackOverflow вы можете прочитать что-то похожее на [ 1 ]

for /L %%I in (0,1,100) do (
    wget "http://download/img%%I.png"
    sleep 1
)

В Linux вы можете использовать ту же конструкцию или, например,

seq 0 1 100 | awk '{printf("wget http://download/img%d.png\n",$1)}'| /bin/sh

Заметки:

  • Если вы используете %3.3d вместо %d вы получите img000.png ... img012.png ... img100.png вместо img0.png ... img12.png ... img100.png .
  • Если вы избегаете последнего канала (| /bin/sh), вы напечатаете на оболочке сгенерированный вывод.
    После этого вы проверили его правильность, вы можете добавить его снова и выполнить.
  • \n добавляет новую строку в вывод. Возможно, вы захотите добавить sleep 1.23 \n после добавления новой строки, которая ожидает 1,23 секунды между загрузками.
  • Вам может понадобиться добавить некоторые опции в командную строку wget [ 2 ] .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .