1

У меня есть очень большой древовидный XML-файл, около 1 ГБ.

Мне нужно удалить строки <Sample> ... </Sample> включая подстроки внутри <Sample> ... </Sample> которые не содержат значения <segmentation><![CDATA[0.11]]></segmentation> .

Например, есть строки с тегами следующим образом:

<segmentation><![CDATA[0.11]]></segmentation>
<segmentation><![CDATA[0.25]]></segmentation>
<segmentation><![CDATA[0.61]]></segmentation>

В приведенном ниже примере, можно удалить все <Sample> строки и подстрок, сохраняя только <Sample> включая сублиний с помощью тега <segmentation><![CDATA[0.11]]></segmentation>?

Начальное:

  <Sample>
    <title><![CDATA[South Park]]></title>
    <date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
    <referencenumber><![CDATA[20983990]]></referencenumber>
    <segmentation><![CDATA[0.11]]></segmentation>
    <description><![CDATA[Some text goes here]]></description>
  </Sample>
  <Sample>
    <title><![CDATA[South Park]]></title>
    <date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
    <referencenumber><![CDATA[20983990]]></referencenumber>
    <segmentation><![CDATA[0.25]]></segmentation>
    <description><![CDATA[Some text goes here]]></description>
  </Sample>
  <Sample>
    <title><![CDATA[South Park]]></title>
    <date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
    <referencenumber><![CDATA[20983990]]></referencenumber>
    <segmentation><![CDATA[0.61]]></segmentation>
    <description><![CDATA[Some text goes here]]></description>
  </Sample>

Результат:

  <Sample>
    <title><![CDATA[South Park]]></title>
    <date><![CDATA[Tue, 29 Nov 2016 00:00:00 EST]]></date>
    <referencenumber><![CDATA[20983990]]></referencenumber>
    <segmentation><![CDATA[0.11]]></segmentation>
    <description><![CDATA[Some text goes here]]></description>
  </Sample>

0