Извлечь текст из Интернета

Question

Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: обычный текст, alt и заголовок для изображений, заголовок раздела. Все по отдельности, если это возможно. Выходные данные должны быть доступны для поиска или текстовых файлов (xml) для каждой просканированной страницы. Мне нужен этот текст, чтобы передать их переводчикам.

score 2 · Answer 1 · 2011-03-09T19:38:42

Старый добрый Lynx может предоставить вам большинство функций, которые вы запрашивали. Попробуйте, например, lynx -dump http://superuser.com/ .

Вы также можете использовать wget для рекурсивного сканирования нужных вам сайтов, а затем обрабатывать файлы с помощью различных доступных конвертеров, таких как htmltidy.

Сейчас выбран русский

Извлечь текст из Интернета

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками extract web-crawler.

Извлечь текст из Интернета

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками extract web-crawler.

Похожие