Я работаю над освобождением словаря, написанного в wordperfect 5, в обычный текст. В идеале я получу файл UTF-8 с каждой записью в отдельной строке и полями, разделенными табуляцией, но я отвлекся.
Проблема, с которой я столкнулся, состоит в том, что в словарь включено много символов, отличных от ascii, которые были составлены с (возможно, несколькими) ударами, некоторые из которых содержат форматирование перегруженных (?) персонажи. Есть ли способ получить полный список штрихов, используемых в документе, вместе с их компонентами символов? Если я не ошибаюсь, это необходимая предпосылка для переноса оверриков в юникод с помощью скрипта или другого инструмента конвертации.