Мне нужно скопировать веб-сайт, но я хочу исключить определенные элементы HTML по идентификатору или классу на всех страницах (используя скрипт bash).

Мне это нужно, потому что я не хочу рекламы или других раздражающих функций некоторых веб-сайтов.

1 ответ1

0

Это не полный ответ, но он был слишком большим для поля для комментариев, и я надеюсь, что он поставит вас на правильный путь.

Извлекать эти вещи, пока HTTrack обрабатывает файлы, может быть сложно. У них есть C API для плагинов, которые, кажется, предоставляют зацепки, которые можно использовать для удаления фрагментов документа до того, как HTTrack сканирует его для дальнейших URL-адресов для загрузки, но я не вижу интерфейс сценария для этого (кто-то может написанный один, хотя).

Разбирать эти вещи после загрузки файлов с помощью HTTrack будет проще, но bash, вероятно, не лучший выбор, потому что вам придется потратить много времени на обучение bash разбору HTML. Возможно, вам лучше использовать более продвинутый язык сценариев, который имеет хорошие встроенные или свободно доступные библиотеки HTML/DOM (Perl, Python, Ruby и т.д.).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .