Я пытаюсь собрать поиск по регулярному выражению, который находит любые два (или более) слова, которые находятся в пределах n (например, более 1, менее 5) слов друг друга. Цель состоит в том, чтобы найти текст в прозе и найти ненужные повторения слов, близких друг к другу.
Пример: в следующем тексте поиск должен идентифицировать «пакет:»
Почтальон доставил посылку, и посылка была тяжелой.
Задача состоит в том, что два слова могут быть любыми двумя словами, но должны быть одинаковыми двумя словами. Я пытался найти способ работы с *
или +
(я довольно плохо знаком с регулярными выражениями), но, конечно, подстановочные знаки будут соответствовать каждому слову, поэтому они не работают. Существует ли какая-либо структура поиска, например, $1 within n of $1
которая бы переводила в регулярные выражения?