я бегу

 wget -mk --no-check-certificate https://singpolyma.net/

И кажется, что он сносит все страницы, ресурсы и сообщения в блогах, но в нем отсутствует большое количество URI /actionstream /*. Он получает некоторые из них, и каждая из этих страниц имеет ссылки «предыдущий /следующий», что должно означать, что он может получить их все, но это не так. Нет ошибок в выводе.

Я попытался перейти на https://singpolyma.net/actionstream/reply-httpidenti-canotice72478545-russellmcormond-thats/ но это тоже не сработало, на самом деле он получил еще меньше элементов /actionstream /*.

Там должен быть какой-то переключатель, который я пропускаю. Я думал, что -l inf от -m сделает это.

Есть идеи?

1 ответ1

1

Скорее всего, вы столкнулись с ошибкой # 31354: wget не анализирует HTML-файлы, связанные по ссылке rel = "...". Исправление уже в багажнике в течение некоторого времени (начиная с r2434). Ниже я вставил выдержку из ChangeLog об этом.

2010-10-18  Manfred Koizar  (tiny change)

    * html-url.c (tag_handle_link): Do not assume external links type
    to be always "text/html".

Последняя официально выпущенная версия, к сожалению, довольно старая (версия 1.12 вышла в сентябре 2009 года), поэтому вам нужно скачать и собрать более свежую версию. Программное обеспечение GNU имеет сайт alpha.gnu.org/gnu , где вы можете получить более свежие версии.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .