Извлечь HTML текстовые файлы в текстовый файл

Question

У меня есть папка с большим количеством HTML-файлов, я хотел бы извлечь только текст, содержащийся в теле этого HTML-файла в текстовый файл, как я могу это сделать?

score 1 · Accepted Answer · 2011-03-09T19:38:42

Вы можете перебирать каждый файл в каталоге и использовать браузер командной строки, такой как lynx или w3m, чтобы отобразить HTML в виде открытого текста и сохранить его в текстовом файле.

Пример рыси:

lynx -dump in.html > out.txt

пример w3m:

w3m -dump in.html > out.txt

Сейчас выбран русский

Извлечь HTML текстовые файлы в текстовый файл

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками data-mining.

Извлечь HTML текстовые файлы в текстовый файл

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками data-mining.

Похожие