У меня есть некоторые документы HTML, которые мне нужно исправить пакет. Основные проблемы в файле:

  • Теги не по порядку (<p><i>like this</p></i>)
  • Незакрытые теги (<p>like this)

Я знаю, что результат не будет идеальным, но мне нужно быстро исправить эти простые проблемы для дальнейшей обработки.

Есть ли инструмент для этого? Мне нужен инструмент командной строки, который работает на Mac OS X или Linux. Если ничего не доступно, я в конечном итоге напишу свое, но я бы предпочел что-то, что уже создано для этой задачи, если оно существует.

Для пояснения: это не вопрос рекомендаций по программному обеспечению - я почти уверен, что не существует ни одного программного обеспечения, которое бы это делало, я ищу больше кусочков и кусочков, которые можно собрать вместе, например, sed/awk/Python/etc. это может сделать это. Двумя основными проблемами являются вышедшие из строя и незакрытые теги, упомянутые выше. Если я смогу их решить, оставшиеся проблемы будут гораздо проще решить (кодирование и т.д.)

1 ответ1

0

HTML Tidy:

HTML Tidy - это инструмент для проверки и очистки исходных файлов HTML. Это особенно полезно для поиска и исправления ошибок в глубоко вложенном HTML-коде или для того, чтобы сделать гротескный код разборчивым еще раз.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .