2

При создании зеркала сайта с использованием wget 1.12 в Ubuntu ссылки с набором атрибутов rel не загружаются:

 <a href="link" rel="tag">text</a>

Rel = "tag" - это микроформат (добавляя rel="tag" к гиперссылке, страница указывает, что местом назначения этой гиперссылки является назначенный автором "тег" (или ключевое слово / тема) для текущей страницы).

Моя тема WordPress использует это для ссылки на теги, поэтому 99% сайта игнорируется.

Изменить: оказывается, все мои постоянные ссылки используют rel="bookmark" а также пропущены.

Я использую следующую команду wget (она игнорирует robots.txt и также следует по ссылкам nofollow):

wget -mkp -e robots=off http://site

Как мне сделать так, чтобы wget следовал по ссылкам с помощью rel ?

1 ответ1

3

Я скомпилировал wget 1.13 из исходного кода, и это решает проблему (я думаю, что эта строка, хотя я не говорю о CSS-ссылках): парсинг ссылок из CSS-файлов и из CSS-содержимого, найденного в тегах и атрибутах стиля HTML):

cd /tmp
wget ftp://ftp.gnu.org/gnu/wget/wget-1.13.tar.gz
gunzip < wget-1.13.tar.gz | tar -xv
cd wget-1.13
./configure --with-ssl=openssl
make
sudo make install
mkdir ~/bin
sudo echo "export PATH=$PATH:~/bin" >> ~/.bashrc
cp /usr/local/bin/wget ~/bin

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .