У меня есть файл fasta, содержащий последовательности генома нескольких вирусов.
Пример:
>gi_138375030_Human_papillomavirus
GAAAGTTTCAATCATACTTTATTATATTGGGAGTAAAAAAAA...
>gi_94481944_Human_herpesvirus_3
GGCCCAGCCCTCTCGCGGCCCCCTCGAGAGAGAAAAAAA...
Я хочу извлечь только записи вируса герпеса, включая фактическую последовательность, которая (в этом файле) всегда является строкой после описания.
Следующее регулярное выражение работает:
>.*herpes.*\n.*\n
Он выбирает описание и последовательность строк.
Я нашел похожие вопросы, но все используют функцию "линия закладки":экспортировать все совпадения регулярных выражений в Textpad или Notepad++ в виде списка
Однако это только закладка первой строки вывода регулярного выражения, поэтому я не могу использовать описанные решения. Если я использую "найти все в текущем документе", он также перечисляет только первые строки.
Все, что я хочу сделать, это скопировать вывод регулярных выражений в новый файл. Это особенно расстраивает, так как он находит чуть больше ста записей, что чуть выше того поля, под которым я хотел бы сделать это вручную.
Я бы предпочел решение в ОС Windows.