Независимо от того, какой браузер я пробовал (даже Chrome), при сохранении веб-страницы как локальных файлов она никогда не бывает достаточно точной. Множество JavaScript и тому подобное, кажется, запутали его. Я ищу способ получить 100% идеальную локальную копию веб-страницы. Другими словами, все CSS/images/JavaScripts также должны быть развернуты, и ссылки HTML на указанное содержимое должны быть изменены, чтобы указывать на локальную папку. Есть ли способ сделать это? Я в основном на Mac, но у меня есть доступ к Linux.
4 ответа
Причина, по которой «много JavaScript и тому подобное, кажется, его сбивает с толку», заключается в том, что многие компании используют системы управления контентом (Joomla, Drupal и Wordpress), которые используют их для запроса баз данных на предмет контента. Если это так, вы не получите всю страницу, как вы хотите. Так что это зависит от веб-страницы.
Попробуйте загрузить сайт с помощью HTTrack. Эти параметры позволяют настроить связь локально загружаемых файлов и то, что именно загружается. Доступны сборки для Windows, Linux и Mac.
Вам нужно загрузить весь веб-сайт с помощью Httrack (вам нужно настроить его так, чтобы он не загружал внешние скрипты Java)... просто запустите его, затем просмотрите каталоги, которые скачали, снова запустите Httrack и исключите (например, -.googlesyndication.com/* - .facebook.net/ - *. google-analytics.com/** и т. д.)
Вы также можете использовать Wget:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent http://www.yourdomain.com
Когда вы закончите, вам все еще нужно переписать все ссылки, чтобы они не указывали на .../index.html. Это решает динамический в статический HTML-конвертер.
Если вы работаете в Linux, вы можете попробовать эту команду. "wget" - без кавычек. Я предлагаю больше гибкости для загрузки из Интернета.
Пример:- для терминала типа wget -m "www.example.com"
м обозначает Зеркало (веб-сайта). Вы также можете указать глубину загрузки сайта.