1

Мне нужно перечислить все символы из категории ID Start и ID Continue в Unicode. Где я могу сделать это для конкретной версии Unicode (в данном случае Unicode 5)?

Я думаю, что сайт https://codepoints.net не позволяет делать это для конкретной версии Unicode.

1 ответ1

2

Согласно стандартному приложению Unicode® № 31 (идентификатор Unicode и синтаксис шаблона), категории символов ID_Start и ID_Continue являются производными от Unicode General_Category (прочитайте целые статьи формата файлов UnicodeData и базы данных символов Unicode ).

Смотрите таблицу 2.Свойства для лексических классов для идентификаторов (дайджест):

  • ID_Start являются производными от Unicode General_Category заглавных, строчных букв, заглавных букв, букв-модификаторов, других букв, цифр, а также Other_ID_Start , минус кодовые точки Pattern_Syntax и Pattern_White_Space .

    • В наборе обозначений:
    • [[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
  • ID_Continue включают символы ID_Start , а также символы, имеющие Unicode General_Category непространственных меток, межстрочных знаков, десятичных чисел, знаков пунктуации, плюс Other_ID_Continue , минус кодовые точки Pattern_Syntax и Pattern_White_Space .

    • В наборе обозначений:
    • [[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]

Мы можем увидеть ссылку на Other_ID_Start , Other_ID_Continue , Pattern_Syntax и Pattern_White_Space здесь; например:

Точный список символов, охватываемых свойствами Other_ID_Start и Other_ID_Continue зависит от версии Unicode. Для получения дополнительной информации см. Стандартное приложение Unicode № 44 «База символов Unicode» [UAX44].

UnicodeData.txt, примените действительные регулярные выражения, созданные из указанных выше обозначений. Применитесь к правильной версии UnicodeData.txt , просматривая из Index of /Public.

 http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt
                           ↑ ↑ ↑

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .