-1

Ниже приведено то, что у меня до сих пор, который открывает Chrome, идет по URL, а затем открывает новый файл .txt. Мне нужно выделить весь текст на странице, скопировать его, вставить в файл BigData.txt, а затем сохранить файл на рабочем столе. Это возможно?

CD C:\Program Files (x86)\Google\Chrome\Application\   
start chrome.exe http://en.wikipedia.org/wiki/Big_data
CD C:\Users\TomD\Desktop
echo >BigData.txt
end;

Спасибо всем

2 ответа2

4

Вы действительно говорите о веб-очистке, которая будет трудна только для пакетных файлов, особенно если вы ищете только определенную часть страницы.

Если бы вы хотели получить всю веб-страницу, я бы посоветовал вам получить Windows-версию wget или curl. Оба они могут быть легко интегрированы в пакетный скрипт и загружать HTML для веб-страницы. Обратите внимание, что реальная причина использовать их вместо Chrome заключается в том, что они являются инструментами командной строки, а не браузером на основе графического интерфейса, таким как Chrome.

Получив HTML, вам, вероятно, потребуется использовать настоящий язык сценариев для анализа HTML-файла и извлечения только основного текста статьи.

2

Сначала скачайте "wget.exe" и поместите его в ту же папку вашего .bat (или в любую папку на вашем пути).

Тогда используйте:

set urlPath=www.wikipedia.com
set urlFile=index.html
set urlPathOuput="C:\users\%username%\Desktop"
set urlFileOutput=WiKiPeDiA.txt
wget %urlPath%/%urlFile%
type %urlFile% > %urlPathOuput%\%urlFileOutput%
del %urlFile%

Изменить:

www.wikipedia.com в папку веб-страницы

index.html в файл веб-страницы

C:\users\% username%\Desktop в папку на вашем компьютере

WiKiPeDiA.txt к файлу, который будет создан в ранее определенной папке

ШАГ ЗА ШАГОМ

Во-первых, код сохраняет некоторые переменные. Затем wget загружает файл веб-страницы в папку% cd% (здесь она будет загружать «www.wikipedia.com/index.html»).

Затем содержимое загруженного .html будет сохранено в виде обычного текстового файла (здесь будет создан новый файл в «C:\users\% username%\Desktop» (рабочий стол для текущего пользователя) с именем «WiKiPeDiA». .текст").

Наконец, файл веб-страницы удален.

Замечания:

Если вы хотите сохранить содержимое файла с тегами, это будет код.

Если вы хотите сохранить текст, отображаемый браузером, вам придется проанализировать и отфильтровать его перед сохранением в файл.

Я никогда не делал этого, но вот что я бы сделал:

1. set linenumber=0
2. set characternumber=0
3. find the first "<", after linenumber&characternumber and save it in linenumber2 and the characternumber2.
4. echo everything from linenumber&characternumber to linenumber2&characternumber2.
5. find the first ">" after the previous "<" which was in linenumber2, characternumber2. Save it in linenumber and characternumber.
6. goto step 3

Надеюсь, это помогло!

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .