Удаление дубликатов из текстового файла

Question

У меня есть текстовый файл, который может содержать до 13 000 000 случайно сгенерированных кодов, разделенных с "\n" функцией fputcsv в php.

Каков наиболее эффективный способ удаления дубликатов из этого файла?

Спасибо!

score 2 · Accepted Answer · 2011-03-09T19:38:42

Я думаю, что проблема здесь в том, что в Excel есть ограничение в 1 048 576 строк, а в вашем наборе данных 13 миллионов записей. Каждая запись должна быть на отдельной строке.

Если вы работаете в Windows, вы можете использовать программу NotePad++ для поиска и удаления дубликатов. Ответ на StackOverflow предлагает использовать либо регулярное выражение, либо плагин.

Я бы использовал опцию регулярного выражения. Ниже приводится краткое резюме ответа SO.

Убедитесь, что каждая запись в одной строке
Откройте поиск и замените
Выберите режим регулярного выражения
Введите выражение ^(.*?)$\s+?^(?=.*^\1$) в поле поиска
Оставьте запасную коробку пустой
Нажмите Заменить все

Если эти данные являются экспортом из базы данных, вы можете подумать об изменении оператора SQL до экспорта, добавив DISTINCT после SELECT . Смотрите здесь для примера.

Сейчас выбран русский

Удаление дубликатов из текстового файла

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками csv deduplication.

Удаление дубликатов из текстового файла

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками csv deduplication.

Похожие