1

Я надеюсь, что я могу спросить это здесь.

Мне нужно извлечь содержимое существующего веб-сайта (отвечает за владельца веб-сайта) в документы Word (или текст). Для этого мне нужен только контент из одного DIV с заданным идентификатором.

Есть ли инструмент для Windows, который может сделать это для меня (в идеале рекурсивно)? Я знаю wget и Web Site Downloader, но оба могут "только" сохранить весь HTML.

3 ответа3

1

Для этого лучше всего создать свой собственный набор инструментов:

  1. Используйте инструмент, такой как wget для рекурсивной загрузки файлов HTML, из которых требуется контент. Обратите особое внимание на опции -r чтобы указать рекурсивную загрузку, и -l чтобы указать глубину рекурсии. wget выводит простой текст.
  2. Используйте такой инструмент, как grep чтобы отфильтровать все, кроме строк, содержащих <DIV> вам нужны. Обратите особое внимание на параметры -r чтобы указать рекурсивный поиск, и -e чтобы указать регулярное выражение. Передайте вывод grep в файл по вашему выбору. grep выводит простой текст, если он подается простым текстом.

Подсказка: может быть проще использовать grep несколько раз, чтобы отфильтровать вещи небольшими порциями. Это полностью зависит от того, насколько похожи все страницы и насколько чист код.


Изменить: Опять же, возможно, использование регулярных выражений не является хорошим способом для анализа HTML.

0

Я не думаю, что что-то подобное уже существует. Я думаю, что ваш лучший вариант - написать что-нибудь самостоятельно.

BeautifulSoup - это ... красивая библиотека Python, которая позволит вам сделать это в очень минимальном коде. Для получения дополнительной помощи, я предлагаю вам перейти к переполнению стека

0

Мне лень. За то время, которое понадобится вам для исследования и настройки специального инструмента, наверняка вы сможете просто выделить необходимый текст мышью, скопировать его и вставить в текстовый редактор?

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .