1

Мне нужно удалить дубликаты строк из огромного текста. Файл размером около 150 МБ. Когда я пробую PSPad, я получаю ошибку памяти (несмотря на то, что у меня 8 ГБ ОЗУ).

У вас есть идея или совет, как удалить эти дубликаты?

2 ответа2

2

Gawk: язык сканирования и обработки шаблонов Загрузить-> Двоичные файлы-> Zip

Скопируйте "awk.exe" (gawk-3.1.6-1-bin\bin\awk.exe) в ваш каталог. Создать файл bat:

awk "!x[$0]++" huge.txt>output.txt
1

Вы можете скачать $ Notepad++ и использовать плагин TextFX. Установите Text FX, выбрав Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install . После того, как он будет установлен, появится новое меню с именем TextFX Выберите часть вашего документа с дублированием (или просто выберите весь документ). Перейдите в TextFX -> TextFX Tools , выберите +Sort outputs only UNIQUE... и либо sort lines case sensitive либо сортируйте строки без учета sort lines case insensitive .

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .