Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: обычный текст, alt и заголовок для изображений, заголовок раздела. Все по отдельности, если это возможно. Выходные данные должны быть доступны для поиска или текстовых файлов (xml) для каждой просканированной страницы. Мне нужен этот текст, чтобы передать их переводчикам.

1 ответ1

2

Старый добрый Lynx может предоставить вам большинство функций, которые вы запрашивали. Попробуйте, например, lynx -dump http://superuser.com/ .

Вы также можете использовать wget для рекурсивного сканирования нужных вам сайтов, а затем обрабатывать файлы с помощью различных доступных конвертеров, таких как htmltidy.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .