У меня есть некоторые документы HTML, которые мне нужно исправить пакет. Основные проблемы в файле:
- Теги не по порядку (
<p><i>like this</p></i>
) - Незакрытые теги (
<p>like this
)
Я знаю, что результат не будет идеальным, но мне нужно быстро исправить эти простые проблемы для дальнейшей обработки.
Есть ли инструмент для этого? Мне нужен инструмент командной строки, который работает на Mac OS X или Linux. Если ничего не доступно, я в конечном итоге напишу свое, но я бы предпочел что-то, что уже создано для этой задачи, если оно существует.
Для пояснения: это не вопрос рекомендаций по программному обеспечению - я почти уверен, что не существует ни одного программного обеспечения, которое бы это делало, я ищу больше кусочков и кусочков, которые можно собрать вместе, например, sed/awk/Python/etc. это может сделать это. Двумя основными проблемами являются вышедшие из строя и незакрытые теги, упомянутые выше. Если я смогу их решить, оставшиеся проблемы будут гораздо проще решить (кодирование и т.д.)