У меня есть файл, который выглядит так:
gene ID protein
Solyc06g062540 (Z) PYROPHOSPHATASE 3 (PTHR20889:SF0)
Solyc10g075050 ALBUMIN SUPERFAMILY (PTHR33076:SF11)
Solyc07g061760 SUBFAMILY (PTHR24177:SF35)
Файл с разделителями табуляции; есть вкладка между первым столбцом (идентификатор гена) и вторым столбцом (название белка). (Имя белка может содержать пробелы, но не табуляции.) Название белка содержит строку в скобках, например, (PTHR33076:SF11)
; это идентификатор белка. Я хочу сохранить первый столбец и удалить все данные во втором столбце, кроме идентификатора белка (и входящих в него скобок). Таким образом, результат будет выглядеть так:
Solyc06g062540 (PTHR20889:SF0)
Solyc10g075050 (PTHR33076:SF11)
Solyc07g061760 (PTHR24177:SF35)
Как я могу это сделать? Я пометил все идентификаторы в скобках, используя функцию "mark" и введя (\w+\d+:\w+\d+)
чтобы выделить все идентификаторы в скобках, но я не могу ими манипулировать. Как примечание, некоторые из названий белка имеют другие строки в скобках (например, см. Первую строку, где имя белка содержит (Z)
а также значение ID, которое я хочу). Я не хочу оставлять их.