Согласно стандартному приложению Unicode® № 31 (идентификатор Unicode и синтаксис шаблона), категории символов ID_Start и ID_Continue являются производными от Unicode General_Category (прочитайте целые статьи формата файлов UnicodeData и базы данных символов Unicode ). 
Смотрите таблицу 2.Свойства для лексических классов для идентификаторов (дайджест):
  
  ID_Start являются производными от Unicode General_Category заглавных, строчных букв, заглавных букв, букв-модификаторов, других букв, цифр, а также Other_ID_Start , минус кодовые точки Pattern_Syntax и Pattern_White_Space .
  
  
  - В наборе обозначений:
 
  [[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]] 
  
 
  ID_Continue включают символы ID_Start , а также символы, имеющие Unicode General_Category непространственных меток, межстрочных знаков, десятичных чисел, знаков пунктуации, плюс Other_ID_Continue , минус кодовые точки Pattern_Syntax и Pattern_White_Space .
  
  
  - В наборе обозначений:
 
  [[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]] 
  
 
  
Мы можем увидеть ссылку на Other_ID_Start , Other_ID_Continue , Pattern_Syntax и Pattern_White_Space здесь; например: 
  Точный список символов, охватываемых свойствами Other_ID_Start и Other_ID_Continue зависит от версии Unicode.
  Для получения дополнительной информации см. Стандартное приложение Unicode № 44 «База символов Unicode» [UAX44].
UnicodeData.txt, примените действительные регулярные выражения, созданные из указанных выше обозначений. Применитесь к правильной версии UnicodeData.txt , просматривая из Index of /Public.
 http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt
                           ↑ ↑ ↑