Согласно стандартному приложению Unicode® № 31 (идентификатор Unicode и синтаксис шаблона), категории символов ID_Start
и ID_Continue
являются производными от Unicode General_Category
(прочитайте целые статьи формата файлов UnicodeData и базы данных символов Unicode ).
Смотрите таблицу 2.Свойства для лексических классов для идентификаторов (дайджест):
ID_Start
являются производными от Unicode General_Category заглавных, строчных букв, заглавных букв, букв-модификаторов, других букв, цифр, а также Other_ID_Start
, минус кодовые точки Pattern_Syntax
и Pattern_White_Space
.
- В наборе обозначений:
[[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
ID_Continue
включают символы ID_Start
, а также символы, имеющие Unicode General_Category непространственных меток, межстрочных знаков, десятичных чисел, знаков пунктуации, плюс Other_ID_Continue
, минус кодовые точки Pattern_Syntax
и Pattern_White_Space
.
- В наборе обозначений:
[[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
Мы можем увидеть ссылку на Other_ID_Start
, Other_ID_Continue
, Pattern_Syntax
и Pattern_White_Space
здесь; например:
Точный список символов, охватываемых свойствами Other_ID_Start
и Other_ID_Continue
зависит от версии Unicode.
Для получения дополнительной информации см. Стандартное приложение Unicode № 44 «База символов Unicode» [UAX44].
UnicodeData.txt
, примените действительные регулярные выражения, созданные из указанных выше обозначений. Применитесь к правильной версии UnicodeData.txt
, просматривая из Index of /Public.
http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt
↑ ↑ ↑