У меня есть около 100+ файлов, из которых мне нужно извлечь определенную информацию и скопировать их в отдельные файлы. Они все HTML-файлы и имеют HTML-кодирование. Формат файла:
<html>
<head>
...
... useless text ..
</head>
<body>
.. useless text ..
<div class="container">
<div class="another container">
<div class="heading_container">
important text
<table> ... important table contents </table>
important text
</div> //.../heading
</div> //garbage div close..
</div>/// etc etc closing divs..
<div class="clear"></div>
//above line is in all the files... so maybe the script could be written to copy all until this div (?) .
</div>
</body>
</html>
Мне требуется скопировать весь текст в <div class="heading_container">
...
Любая идея, как я мог бы сделать это в пакетном скрипте? Или какое-нибудь программное обеспечение HTML, чтобы сделать это в пакетном программном обеспечении?
Я не знаю много о пакетных сценариях, но, возможно, сценарий может содержать цикл for / while для копирования текста в файл:
variable string_start = '<div class="heading_container">';
variable string_end = '<div class="clear">';
get file("FILE_URL");
READ the file until `string_start` is reached.
output from 'string start' onwards, to a different folder with same filename.
stop output once string_end is reached.
stop read from the file.
Можно ли это сделать? Я не слишком хорош в синтаксисе алгоритмов!