У меня длинный документ, и я подозреваю, что некоторые фразы (одно или несколько предложений) идентичны или, по крайней мере, похожи. Есть ли способ найти эти повторяющиеся фразы? Какой-то инструмент или регулярное выражение?

1 ответ1

0

Найти одинаковые предложения можно легко в Notepad++:

  1. Используйте регулярное выражение, чтобы каждое предложение было в новой строке. Это можно сделать (например), ища всех . и заменить их на .\n
  2. Удалите все пробелы в начале строки.
  3. Теперь идем дальше и сортируем строки (TextFX -> Инструменты TextFX)
  4. Преобразуйте символ EOL в UNIX, потому что он упрощает задачу (Правка -> Преобразование EOL)
  5. Теперь ищите дублированные строки, ища ^([^\n]+)\n\1

Чтобы найти похожие предложения, вам понадобится что-то вроде словесной программы или нечеткого поиска.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .