Как можно конвертировать HTML в текстовый файл в Linux? Например, я хочу curl
запрос в Google, затем преобразовать выходной HTML в текст и прочитать преобразованный текст на моем терминале. Я использую RHEL6.
8
2 ответа
7
Я не думаю, что у curl есть встроенный HTML-процессор. Тем не мение:
lynx --dump <URL>
делает трюк.
Если вы все еще хотите использовать curl, вы можете использовать html2text
(доступно в Ubuntu).
5
Вы можете установить html2text
(расширенный конвертер HTML-в-текст) и использовать его прямо сейчас:
$ html2text http://example.com/
$ cat file.html | html2text -o file.txt
Установить с помощью:
- Linux:
apt-get install html2text
- OS X:
brew install html2text
Пример с curl
:
$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
A better way to browse the web
Get Google Chrome
Advanced search Language tools
[Google Search][I'm Feeling Lucky]
Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
? 2016 - Privacy - Terms