Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: обычный текст, alt и заголовок для изображений, заголовок раздела. Все по отдельности, если это возможно. Выходные данные должны быть доступны для поиска или текстовых файлов (xml) для каждой просканированной страницы. Мне нужен этот текст, чтобы передать их переводчикам.
1 ответ
2
Старый добрый Lynx может предоставить вам большинство функций, которые вы запрашивали. Попробуйте, например, lynx -dump http://superuser.com/
.
Вы также можете использовать wget
для рекурсивного сканирования нужных вам сайтов, а затем обрабатывать файлы с помощью различных доступных конвертеров, таких как htmltidy.