Веб-сканер с опцией конвертировать ссылки

Question

Я хотел бы сканировать резервную копию сайта, к которому я потерял доступ. Резервное копирование сайта осуществляется на subdomain.somesite.com, а ссылки на веб-странице - www.subdomain.com.

это приводит к следующей ситуации:

ссылка http://subdomain.somesite.com/?page_id=number работает, но ссылка в настоящем html - http://www.subdomain.com/?page_id=number и не работает.

Любые идеи, как сделать это без написания специального сканера?

У меня есть доступ к www.subdomain.com, который находится на вершине WordPress. Одна идея состоит в том, чтобы перенаправить все страницы с шаблоном /?PAGE_ID = число.

Пример. http://www.subdomain.com/?page_id=255 приведет к http://subdomain.somedomain/?page_id = 255

score 1 · Answer 1 · 2011-03-09T19:38:42

Если ваша проблема связана с перенаправлением запросов с www.subdomain на subdomain.somedomain, вы можете просто использовать RewriteRule в Apache или аналогичные реализации на других веб-серверах. Вы можете использовать параметр прокси P для обслуживания сайта с www. домен и позволить веб-серверу получить его с сайта резервного копирования на лету.

Если вы хотите сканировать и изменять контент, самое простое решение - использовать wget с опцией зеркала (доступно в Linux, Windows ...). Может быть достаточно использовать встроенные функции для преобразования абсолютных ссылок в относительные ссылки. В противном случае просто используйте инструмент поиска и замены или регулярное выражение, чтобы изменить домен в загруженной папке.

score 0 · Answer 2 · 2011-03-09T19:38:42

GNU Wget может сделать это. опция -r предназначена для рекурсивной загрузки, -k преобразует ссылки. см. man-страницу для получения дополнительной информации

Сейчас выбран русский

Веб-сканер с опцией конвертировать ссылки

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками wordpress web-crawler.

Веб-сканер с опцией конвертировать ссылки

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками wordpress web-crawler.

Похожие