Использование sed для удаления цифр и пробелов из строки

Question

Я пытаюсь удалить первое вхождение цифры (й), точку, второе вхождение цифры (ей) и пробел перед словом.

Я придумал это регулярное выражение:

sed 's/^[0-9]\+.[0-9]\+\s//' input.txt > output.txt

Образец текста:

2.14 Italien
2.15 Japonais

Мое регулярное выражение не работает, к сожалению. Есть проблема с \s но я не могу точно определить, что это ...

Кто-нибудь может помочь?

редактировать: проблема в том, что мне нужно удалить первый пробел только потому, что некоторые тексты содержат пробелы, как вы можете видеть ниже:

3.15 Chichewa
3.16 Chimane
3.17 Cinghalais
3.18 Créole de Guinée-Bissau

score 12 · Accepted Answer · 2011-03-09T19:38:42

Используемая вами команда должна работать как есть с GNU sed . Но с BSD sed , который, например, поставляется с OS X, не будет.

Если вы пытаетесь использовать расширенные регулярные выражения - которые поддерживают метасимвол + - вам необходимо явно включить их. Для BSD sed вы делаете это с помощью sed -E , а для GNU sed с помощью sed -r .

Один только \+ делает с GNU sed когда ERE не включены, но это менее переносимо.
Вы используете Perl-подобные \s , которых нет ни для базовых, ни для расширенных регулярных выражений. Regular sed не поддерживает регулярные выражения Perl. GNU sed поддерживает \s - но было бы более переносимо просто добавить пробел к вашему регулярному выражению.
Наконец, твой . соответствует одному символу, поэтому ваше регулярное выражение будет соответствовать любому символу в этом месте, а не только точке. Используйте \. чтобы правильно избежать этого.

Таким образом, решение для GNU sed:

$ echo "2.12 blah" | sed -r 's/^[0-9]+\.[0-9]+ //'
blah

Или для BSD sed:

$ echo "2.12 blah" | sed -E 's/^[0-9]+\.[0-9]+ //'
blah

Таким образом, вам не нужно другое регулярное выражение для разных версий sed . С вашим примером:

$ cat test
3.15 Chichewa
3.16 Chimane
3.17 Cinghalais
3.18 Créole de Guinée-Bissau

$ sed -r 's/^[0-9]+\.[0-9]+ //' test
Chichewa
Chimane
Cinghalais
Créole de Guinée-Bissau

Если реальная проблема заключается в том, что вы хотите получить второй столбец файла, разделенного пробелами, то вы поступите неправильно. Либо используйте awk , как говорит @Srdjan Grubor, либо используйте cut:

$ echo "2.12 foo bar baz" | cut -d' ' -f2-
foo bar baz

Параметр -f2- указывает второй и все последующие столбцы, поэтому в качестве первого разделителя он будет взят в качестве первого пробела, а остальные будут выведены.

score 7 · Answer 2 · 2011-03-09T19:38:42

Почему бы не использовать awk?

cat  input.txt | awk '{print $2}' > output.txt

score 2 · Answer 3 · 2011-03-09T19:38:42

Если единственное, что нужно, это сбросить все, включая первый пробел, то этого достаточно.

sed -e 's/[^ ]* //'

score 1 · Answer 4 · 2011-03-09T19:38:42

С любым седом:

sed 's/^[0-9]\{1,\}\.[0-9]\{1,\} //'

Или, возможно, этого может быть достаточно:

sed 's/^[0-9.]\{1,\} //' file

score 1 · Answer 5 · 2011-03-09T19:38:42

Вы также можете использовать grep:

grep -oP '[a-zA-Z]+$' input.txt > output.txt

Сейчас выбран русский

Использование sed для удаления цифр и пробелов из строки

5 ответов5

Всё ещё ищете ответ? Посмотрите другие вопросы с метками regex sed.

Использование sed для удаления цифр и пробелов из строки

5 ответов5

Всё ещё ищете ответ? Посмотрите другие вопросы с метками regex sed.

Похожие