В Linux у меня есть два текстовых файла с русскими словами UTF8, отсортированными с помощью sort -u
(на самом деле я использовал :%sort u
в Vim, он дает такие же результаты).
Один из файлов dict.txt
содержит около 700000 слов моего пользовательского словаря. Другой файл bad-words.txt
содержит часто неправильно набранные слова.
Я хотел бы удалить все слова, найденные в bad-words.txt
из dict.txt
.
Я знаю, что Perl-скрипт, использующий хэш, мог бы сделать это, но я за Unix one liner.
Там, пожалуйста, команда Unix (может быть, что-то с использованием diff
?) выполнить эту задачу? И я надеюсь, что diff
не будет смущен большим количеством строк, потому что программа "Beyond Compare" на Windows ...