У меня есть несколько документов Word, в которых разрывы строк (разрывы абзацев) были добавлены исключительно по косметическим соображениям (возможно, человеком, но, возможно, системой OCR или чем-то подобным). Я хочу удалить эти дополнительные разрывы строк из документов. По сути, «дополнительный» разрыв строки - это тот, который окружен строчными буквами с обеих сторон (с дополнительным пробелом). К сожалению, однако, если я хочу найти разрывы абзацев в Word (^ p), я не могу использовать классы символов для поиска только строчных букв ([az]) и наоборот.
По сути, я хочу использовать в документе многострочное регулярное выражение, чтобы найти что-то вроде следующего:
/[a-z]\s*\n\s*[a-z]/
и замените новую строку пробелом. Можно ли как-нибудь найти метки абзаца (^ p в Word) и классы символов (или просто строчные буквы в целом)?
ПРИМЕР:
ЗАГЛАВИЕ¶
Это какой-то текст.
не будет соответствовать, но
этот текст в одну строку и
переходит к следующей строке.
будет соответствовать, и «¶» будет заменен пробелом.