-3

Я хочу скачать все содержание слова с определенного сайта. Сохраните результаты в MS Word, Excel или Notepad и проверьте, какие слова повторяются чаще всего и сколько раз.

2 ответа2

0

Это может быть сложно - так как вам нужно скачать HTML, чтобы добраться до всего остального. К счастью, проблема уже решена. Используйте Wget. Скачать (включая бинарные файлы Windows) здесь и руководство здесь

Я дал вам ручную привязку для опции «--accept», которая ограничивает типы сохраняемых файлов. Вам нужно будет смешать его с --mirror и, возможно, с некоторыми из параметров максимальной глубины. Ищите "span hosts", если вы получаете меньше информации, чем вам нужно.

Я думаю, что это отвечает на поставленный вопрос - если вам нужна помощь в подсчете слов (или преобразовании слова / Excel в текст программным способом), это, вероятно, новый вопрос.

0

Вы можете использовать powershell для загрузки файла, а затем использовать HTML-анализатор для извлечения текста. Команда powershell для загрузки веб-страницы:

Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html

Это сохранит HTML-файл с именем "google.html" на вашем рабочем столе (если вы измените JohnDoe на свой идентификатор Windows). Тогда вы можете использовать HTML-парсер на нем. Вот ссылка на сравнение html-анализаторов в Википедии: http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .