Вы можете найти этих вне диапазона символов и решить, что с ними делать .. Некоторые из них могут быть вьющимися цитатами. Вы могли бы просто хотеть заменить те с прямыми кавычками. Но другие будут вашими неприятными персонажами, которые блокнот может не обработать, и вы захотите их удалить.
Так что для блокнота ++ находка [\x{0080}-\x{FFFF}]
Обратите внимание, что вы нажали на вкладку замены, чтобы найти / заменить.
Выше должно быть достаточно, но некоторые дальнейшие объяснения
Диапазон ascii составляет 0000h-007Fh, то есть base10, 0-127. Так что, если вы ищете любой юникод вне этого, то есть 128+, то есть 80h-FFFFh, то вы можете найти эти символы. Синтаксис регулярного выражения имеет концепцию диапазона символов, поэтому [AZ] будет любым символом между A и Z в Unicode. А в notepad++ вы указываете символ с кодом utf-16 с обозначением \x {...}, где ... - шестнадцатеричный код, поэтому для 'A', шестнадцатеричный код которого равен 41, вы должны указать \x {0041 }. Editpad будет использовать \u ....
например, \u0041
. Так что в editpad pro вы бы сделали [\u0080-\uFFFF]
. В блокноте ++ вы бы сделали, как на картинке выше. [\x{0080}-\x{FFFF}]
Обратите внимание, что его синтаксический аспект в регулярном выражении тот же, но способ задания символа различается в разных текстовых редакторах.