[Моя цель состоит в том, чтобы использовать функции коровы btrfs для подстановки файлов размером от 30 до 300 ГБ в несколько файлов по 10 ГБ без создания значительных операций ввода-вывода и использования дополнительного дискового пространства. то есть:
300GB dna_original.fastq
10GB dna_subset-a.fastq
10GB dna_subset-b.fastq
10GB dna_subset-c.fastq
Рассматриваемые файлы - это файлы fastq или fasta, обычно используемые для секвенирования ДНК, это текстовые файлы, удобочитаемые человеком. Обычно я бы создал такой файл, используя
head -n x file_original | tail -n y > file_subset-1
тем самым производя существенный ввод / вывод и используя дополнительное дисковое пространство. Такие инструменты, как двустороннее удаление (также интенсивно использующие ввод / вывод), по-видимому, не распознают подмножества, которые не происходят с начала оригинала.
Я полагаю, что можно использовать cp --reflink=always file_original file_subset-1
и впоследствии удалять x строк из начала и конца файла без записи в новый файл.
Можем ли мы придумать какой-нибудь способ выполнения заданий поднабора таким образом, используя btrfs?
Спасибо за внимание