Если у меня есть текстовый файл, я могу отсортировать его командой sort input.txt output.txt
. Можно ли как-то также удалить дубликаты строк из текстового файла? (В идеале я хотел бы получить решение, которое можно сделать в командном файле под Windows.)
Это в основном то же самое, что спрашивать, как удалить дубликаты из текстового файла. (Поскольку, очевидно, я могу сначала отсортировать, а затем использовать пакет для удаления дубликатов.) Причина, по которой я также упомянул сортировку, состоит в том, что я предполагаю, что дубликаты легче удалить, если мы знаем, что файл отсортирован, и они могут появляться только в последовательных строках. Поэтому я думаю, что более вероятно, что есть некоторый способ удаления дубликатов вместе с сортировкой. (И для целей, в которых я хочу использовать этот идентификатор, не имеет значения, изменяется ли порядок строк в файле, если удалены повторяющиеся строки.)
Например, из файла, который выглядит так:
100
100
100
100
101
101
102
Я хотел бы получить
100
101
102