1

[Моя цель состоит в том, чтобы использовать функции коровы btrfs для подстановки файлов размером от 30 до 300 ГБ в несколько файлов по 10 ГБ без создания значительных операций ввода-вывода и использования дополнительного дискового пространства. то есть:

300GB   dna_original.fastq
10GB    dna_subset-a.fastq
10GB    dna_subset-b.fastq
10GB    dna_subset-c.fastq

Рассматриваемые файлы - это файлы fastq или fasta, обычно используемые для секвенирования ДНК, это текстовые файлы, удобочитаемые человеком. Обычно я бы создал такой файл, используя

head -n x file_original | tail -n y > file_subset-1

тем самым производя существенный ввод / вывод и используя дополнительное дисковое пространство. Такие инструменты, как двустороннее удаление (также интенсивно использующие ввод / вывод), по-видимому, не распознают подмножества, которые не происходят с начала оригинала.

Я полагаю, что можно использовать cp --reflink=always file_original file_subset-1 и впоследствии удалять x строк из начала и конца файла без записи в новый файл.

Можем ли мы придумать какой-нибудь способ выполнения заданий поднабора таким образом, используя btrfs?

Спасибо за внимание

0