Всякий раз, когда я копирую отформатированный текст из файла PDF, который отформатирован так, чтобы иметь разрывы строк (или возврат каретки), мне нужно найти способ удалить эти разрывы строк, не удаляя формат абзаца.
Для этого мне нужно использовать RegEx (Регулярные выражения), чтобы удалить только разрывы строк, которым не предшествует точка.
Так, например, если строка текста имеет разрыв строки сразу после точки, это, очевидно, почти всегда является допустимым разрывом строки, который начнет новый абзац. Если строка текста содержит середину слова разрыва строки или после слова без точки, это просто часть плохого форматирования, от которого мне нужно избавиться.
Моя проблема в том, что я не знаю, как использовать RegEx, чтобы он удалял только теги ^ p в слове или CRLF или разрывы строк в любом формате при условии, что он пропускает после периода.