У меня есть CSV-файл, который выглядит так:
ID, term, functional category
GO:0008166,viral replication,P,
GO:0008167,sigma virus replication,P,
GO:0008168,GO:0004480,methyltransferase activity,F,
GO:0008169,C-methyltransferase activity,F,
Мне просто нужно использовать notepad++
чтобы переместить идентификаторы в их собственную строку и скопировать то, что было в той же строке, в конец. Так что в идеале конечный результат должен выглядеть так:
ID, term, functional category
GO:0008166,viral replication,P,
GO:0008167,sigma virus replication,P,
GO:0008168,,methyltransferase activity,F,
GO:0004480,methyltransferase activity,F,
GO:0008169,C-methyltransferase activity,F,
Я попытался использовать функцию замены, находя экземпляры идентификаторов прямо рядом друг с другом, используя: (\w+:\d+),(\w+:\d+),(.*),[A-Z]
и замена на $1,$3,$4\r$2,$3,$4
.
Однако каждый раз, когда я пытаюсь "найти" эти экземпляры в notepad++
он подсвечивает весь список, и команда не работает.
Я не очень опытен в этом, поэтому, если кто-то может мне помочь, я буду благодарен! Спасибо!
Оригинальный файл: http://www.geneontology.org/doc/GO.terms_alt_ids
Я избавился от заголовка и превратил его в CSV, заменив все вкладки запятой.