Я был бы очень признателен за помощь с этим. Я работаю с большим корпусом текста, размеченным с помощью XML-скрипта, и мне нужно кое-что привести в порядок. В частности, в квадратных скобках есть несколько сотен чисел (например, «[1234]»), которые нужно удалить (включая скобки). Каждый номер индивидуален и может содержать от 3 до 5 цифр.
Второе, что мне нужно сделать, это разместить теги XML вокруг некоторых других фрагментов текста. Это имена в круглых скобках. То есть вроде:
Он (мистер Смит) сказал ...
Который я хочу изменить на:
Он <annot> (Mr. Smith) </annot>
сказал ...».
Как я могу выполнить оба этих изменения?
Я уже пытался использовать расширенный режим и искать «[. *]», Но он не возвращает хитов. Когда я пытаюсь сделать то же самое с RegEx, я получаю много хитов, но кажется, что он ищет каждую квадратную скобку в корпусе.