У меня есть файл размером в несколько ГБ, содержащий элементы в 4 строки, и я хотел бы, чтобы каждые 4 строки были рандомизированы в другом файле, то есть сгруппировать каждые четыре строки и рандомизировать эти наборы. Есть ли простой способ сделать это?
4
2 ответа
4
Если вы используете разумный новый дистрибутив linux/unix, sort
идет с флагом -R
который рандомизирует строки, а не сортирует их. Мы можем использовать это для создания этого однострочного решения:
awk '{printf("%s%s",$0,(NR%4==0)?"\n":"\0")}' file.txt | sort -R | tr "\0" "\n" > sorted.txt
Во-первых, используйте awk
чтобы сгруппировать каждые 4 строки, заменив \n
на \0
. Затем мы перетасовываем строки с помощью sort -R
и, наконец, восстанавливаем разрывы строк с помощью tr
.
1
Это в Python. Я уверен, что кто-то также опубликует ответ на Perl. ;-)
#!/usr/bin/python import random #Change these to the desired files infile = "/path/to/input/file" outfile = "/path/to/output/file" fh = file(infile) contents = fh.readlines() fh.close() chunked = [contents[i:i+4] for i in xrange(0, len(contents), 4)] random.shuffle(chunked) fh = file(outfile, 'w') for chunk in chunked: for line in chunk: fh.write(line) fh.close()
Программист IANA, так что кто-то, возможно, мог бы улучшить это, но я проверил это, и он работает просто отлично.