У меня есть последовательности генетического кода, такие как: ACTGgcttaTGCA и я пытаюсь выяснить команды Unix, чтобы удалить только строчные символы, так что строка затем выглядит как ACTGTGCA (удалена gctta).

Может кто-нибудь предложить какой-либо совет относительно соответствующих средств для этого? Файлы слишком велики, чтобы открывать их в текстовом редакторе, поэтому я не могу просто сделать «найти и заменить».

2 ответа2

2
sed 's/[a-z]//g' yourfile >> newfile

Если вы хотите редактировать файл на месте:

sed -i 's/[a-z]//g' yourfile
0

Конечно, вы можете просто найти и заменить, вам просто нужно сделать это в потоке, а не загружать весь файл. Обычно для этого вы используете инструмент sed . Это может выглядеть следующим образом:

sed -r 's/[a-z]*//g' input.txt

Это будет соответствовать любой последовательности символов нижнего регистра и заменять их ничем.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .