Файл, о котором идет речь, - это XML, но я хочу, чтобы сценарий оболочки удалял все внедренные двоичные (Base64) кодированные изображения. Файлы, как правило, огромные (> 2 ГБ).
Я хочу удалить все между:
<attribute name="picture" type="binary">
а также
</attribute>
Решение должно прочитать файл и записать измененный файл без двоичных данных, таким образом удаляя встроенные изображения. Я использую Bash Shell на Mac OS X терминал.
Я попытался (безуспешно) использовать sed
:
sed '|<attribute name="picture" type="binary">|,|</attribute>|{||!d}' Original.file
sed 'type="binary">','</attribute>'{//!d}' Original.file > New.file