У меня есть очень большой древовидный XML-файл, около 1 ГБ.
Мне нужно удалить строки <Sample> ... </Sample>
включая подстроки внутри <Sample> ... </Sample>
которые не содержат значения <segmentation><![CDATA[0.11]]></segmentation>
.
Например, есть строки с тегами следующим образом:
<segmentation><![CDATA[0.11]]></segmentation>
<segmentation><![CDATA[0.25]]></segmentation>
<segmentation><![CDATA[0.61]]></segmentation>
В приведенном ниже примере, можно удалить все <Sample>
строки и подстрок, сохраняя только <Sample>
включая сублиний с помощью тега <segmentation><![CDATA[0.11]]></segmentation>
?
Начальное:
<Sample>
<title><![CDATA[South Park]]></title>
<date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
<referencenumber><![CDATA[20983990]]></referencenumber>
<segmentation><![CDATA[0.11]]></segmentation>
<description><![CDATA[Some text goes here]]></description>
</Sample>
<Sample>
<title><![CDATA[South Park]]></title>
<date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
<referencenumber><![CDATA[20983990]]></referencenumber>
<segmentation><![CDATA[0.25]]></segmentation>
<description><![CDATA[Some text goes here]]></description>
</Sample>
<Sample>
<title><![CDATA[South Park]]></title>
<date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
<referencenumber><![CDATA[20983990]]></referencenumber>
<segmentation><![CDATA[0.61]]></segmentation>
<description><![CDATA[Some text goes here]]></description>
</Sample>
Результат:
<Sample>
<title><![CDATA[South Park]]></title>
<date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
<referencenumber><![CDATA[20983990]]></referencenumber>
<segmentation><![CDATA[0.11]]></segmentation>
<description><![CDATA[Some text goes here]]></description>
</Sample>