Win: Удалить дубликаты строк в огромном текстовом файле

Question

Мне нужно удалить дубликаты строк из огромного текста. Файл размером около 150 МБ. Когда я пробую PSPad, я получаю ошибку памяти (несмотря на то, что у меня 8 ГБ ОЗУ).

У вас есть идея или совет, как удалить эти дубликаты?

score 2 · Answer 1 · 2011-03-09T19:38:42

Gawk: язык сканирования и обработки шаблонов Загрузить-> Двоичные файлы-> Zip

Скопируйте "awk.exe" (gawk-3.1.6-1-bin\bin\awk.exe) в ваш каталог. Создать файл bat:

awk "!x[$0]++" huge.txt>output.txt

score 1 · Answer 2 · 2011-03-09T19:38:42

Вы можете скачать $ Notepad++ и использовать плагин TextFX. Установите Text FX, выбрав Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install . После того, как он будет установлен, появится новое меню с именем TextFX Выберите часть вашего документа с дублированием (или просто выберите весь документ). Перейдите в TextFX -> TextFX Tools , выберите +Sort outputs only UNIQUE... и либо sort lines case sensitive либо сортируйте строки без учета sort lines case insensitive .

Сейчас выбран русский

Win: Удалить дубликаты строк в огромном текстовом файле

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками windows-7 duplicate.

Win: Удалить дубликаты строк в огромном текстовом файле

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками windows-7 duplicate.

Похожие