5

У меня есть большой файл XML. Из командной строки Unix я хотел бы добавить новую строку после каждого > .

Я попытался использовать sed для этого, но не повезло:

sed -i '' -e's/>/>\n/' file.xml

Это просто вставляет букву n , а не перевод строки. Я также пробовал \r и \r\n .

Как я могу это сделать?

(К вашему сведению - я использую zshell в OSX.)

3 ответа3

15

скрипт

Используйте indentxml file.xml для просмотра, indentxml file.xml > new.xml для редактирования.

Где indentxml

#!/usr/bin/perl
#
# Purpose: Read an XML file and indent it for ease of reading
# Author:  RedGrittyBrick 2011. 
# Licence: Creative Commons Attribution-ShareAlike 3.0 Unported License
#
use strict;
use warnings;

my $filename = $ARGV[0];
die "Usage: $0 filename\n" unless $filename;

open my $fh , '<', $filename
  or die "Can't read '$filename' because $!\n";
my $xml = '';
while (<$fh>) { $xml .= $_; }
close $fh;

$xml =~ s|>[\n\s]+<|><|gs;                       # remove superfluous whitespace
$xml =~ s|><|>\n<|gs;                            # split line at consecutive tags

my $indent = 0;
for my $line (split /\n/, $xml) {

  if ($line =~ m|^</|) { $indent--; }

  print '  'x$indent, $line, "\n";

  if ($line =~ m|^<[^/\?]|) { $indent++; }             # indent after <foo
  if ($line =~ m|^<[^/][^>]*>[^<]*</|) { $indent--; }  # but not <foo>..</foo>
  if ($line =~ m|^<[^/][^>]*/>|) { $indent--; }        # and not <foo/>

}

синтаксический анализатор

Конечно, канонический ответ - использовать правильный синтаксический анализатор XML.

# cat line.xml
<a><b>Bee</b><c>Sea</c><d><e>Eeeh!</e></d></a>

# perl -MXML::LibXML -e 'print XML::LibXML->new->parse_file("line.xml")->toString(1)'
<?xml version="1.0"?>
<a>
  <b>Bee</b>
  <c>Sea</c>
  <d>
    <e>Eeeh!</e>
  </d>
</a>

Полезность

Но, возможно, самый простой

# xmllint --format line.xml
<?xml version="1.0"?>
<a>
  <b>Bee</b>
  <c>Sea</c>
  <d>
    <e>Eeeh!</e>
  </d>
</a>
2

Здесь нет escape-последовательности, вам нужно буквально использовать символ новой строки. Так что для этого входа

$ cat /tmp/example 
<this is one tag><this is another tag><here again>

Вы должны использовать

$ sed -e 's_>_&\
_g' /tmp/example

который производит

<this is one tag>
<this is another tag>
<here again>

Обратите внимание, что перевод строки должен быть экранирован (как показано выше)

0

Ваша команда работает правильно, просто недостаточно.

Попробуйте добавить опцию «g» в конец команды «s'ubstitute», чтобы sed проверял ВСЕ символы «>» в каждой строке входного файла.

Использование:

sed -i -e 's/>/>\n/g' file.xml

обратите внимание на завершающую букву «g» в команде замены.

суффиксная часть параметра -i является необязательной и может быть опущена.

Другие ответы тоже неплохо сработали, но ваша первоначальная попытка была правильной, хотя и отсутствовала опция «g».

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .