Я хочу скачать все содержание слова с определенного сайта. Сохраните результаты в MS Word, Excel или Notepad и проверьте, какие слова повторяются чаще всего и сколько раз.
2 ответа
Это может быть сложно - так как вам нужно скачать HTML, чтобы добраться до всего остального. К счастью, проблема уже решена. Используйте Wget. Скачать (включая бинарные файлы Windows) здесь и руководство здесь
Я дал вам ручную привязку для опции «--accept», которая ограничивает типы сохраняемых файлов. Вам нужно будет смешать его с --mirror и, возможно, с некоторыми из параметров максимальной глубины. Ищите "span hosts", если вы получаете меньше информации, чем вам нужно.
Я думаю, что это отвечает на поставленный вопрос - если вам нужна помощь в подсчете слов (или преобразовании слова / Excel в текст программным способом), это, вероятно, новый вопрос.
Вы можете использовать powershell для загрузки файла, а затем использовать HTML-анализатор для извлечения текста. Команда powershell для загрузки веб-страницы:
Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html
Это сохранит HTML-файл с именем "google.html" на вашем рабочем столе (если вы измените JohnDoe на свой идентификатор Windows). Тогда вы можете использовать HTML-парсер на нем. Вот ссылка на сравнение html-анализаторов в Википедии: http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers