У меня длинный документ, и я подозреваю, что некоторые фразы (одно или несколько предложений) идентичны или, по крайней мере, похожи. Есть ли способ найти эти повторяющиеся фразы? Какой-то инструмент или регулярное выражение?
1 ответ
0
Найти одинаковые предложения можно легко в Notepad++:
- Используйте регулярное выражение, чтобы каждое предложение было в новой строке. Это можно сделать (например), ища всех
.
и заменить их на.\n
- Удалите все пробелы в начале строки.
- Теперь идем дальше и сортируем строки (TextFX -> Инструменты TextFX)
- Преобразуйте символ EOL в UNIX, потому что он упрощает задачу (Правка -> Преобразование EOL)
- Теперь ищите дублированные строки, ища
^([^\n]+)\n\1
Чтобы найти похожие предложения, вам понадобится что-то вроде словесной программы или нечеткого поиска.