Мне нужно удалить дубликаты строк из огромного текста. Файл размером около 150 МБ. Когда я пробую PSPad, я получаю ошибку памяти (несмотря на то, что у меня 8 ГБ ОЗУ).
У вас есть идея или совет, как удалить эти дубликаты?
Gawk: язык сканирования и обработки шаблонов Загрузить-> Двоичные файлы-> Zip
Скопируйте "awk.exe" (gawk-3.1.6-1-bin\bin\awk.exe) в ваш каталог. Создать файл bat:
awk "!x[$0]++" huge.txt>output.txt
Вы можете скачать $ Notepad++ и использовать плагин TextFX. Установите Text FX, выбрав Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install
. После того, как он будет установлен, появится новое меню с именем TextFX
Выберите часть вашего документа с дублированием (или просто выберите весь документ). Перейдите в TextFX -> TextFX Tools
, выберите +Sort outputs only UNIQUE...
и либо sort lines case sensitive
либо сортируйте строки без учета sort lines case insensitive
.