-1

просто мой вопрос другой, потому что мне нужно объединить файлы в один, а затем удалить дубликаты строк из этого файла, который будет более 50 ГБ TXT, у меня есть большой. TXT из 10 ГБ + файлов

я хочу объединить их в 1 .txt файл

затем удалите все дублирующиеся строки из этого 1 большого файла .txt, который будет составлять около 50 ГБ текстового файла или 100 ГБ текстового файла

так, что может обработать такой большой файл и удалить дубликаты из него гладко?

Мне нужен самый быстрый способ, потому что я попробовал bouth notepad++ и emeditor, они работают очень тяжело с ними для слияния или удаления дубликатов и берут навсегда

у меня 12 ГБ оперативной памяти

1 ответ1

2

Если вы используете Linux, вы можете сделать это так:

cat aa.txt bb.txt | sort -u > newfile.txt

Здесь aa.txt - первый текстовый файл, а bb.txt - второй.

sort -u сортирует файл по алфавиту и с помощью -u (см. также здесь https://stackoverflow.com/a/9377125/7311363) вы удаляете дубликаты. С > newfile.txt вы пишете это в newfile.txt.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .